문서를 요약해주는 웹 앱 프로젝트
23년 이전 글/Summarize_document

문서를 요약해주는 웹 앱 프로젝트

 

파이토치를 통한 자연어 공부를 하던 중 카카오에서 만든 자연어처리 관련 라이브러리에 대해서 알게 되었다

https://kakaobrain.github.io/pororo/notes/intro.html

 

Installation and Usage — PORORO: Platform Of neuRal mOdels for natuRal language prOcessing 0.3.1 documentation

© Copyright 2021, Kakao Brain Corp.

kakaobrain.github.io

 

특히 뉴스 문서 요약 부분에서 성능이 좋아서 관심을 갖게 되었고

번역 뿐만 아니라 요약, 감정 분류 등 다양한 기능을 활용할 수 있었다

 

 

from pororo import Pororo

summ = Pororo(task="summarization", model="abstractive", lang="ko")

summ([ ... "목성과 토성이 약 400년 만에 가장 가까이 만났습니다. 국립과천과학관 등 천문학계에 따르면 21일 저녁 목성과 토성은 1623년 이후 397년 만에 가장 가까워졌는데요. 크리스마스 즈음까지 남서쪽 하늘을 올려다보면 목성과 토성이 가까워지는 현상을 관측할 수 있습니다. 목성의 공전주기는 11.9년, 토성의 공전주기는 29.5년인데요. 공전주기의 차이로 두 행성은 약 19.9년에 한 번 가까워집니다. 이번 근접 때 목성과 토성 사이 거리는 보름달 지름의 5분의 1 정도로 가까워졌습니다. 맨눈으로 보면 두 행성이 겹쳐져 하나의 별처럼 보이는데요. 지난 21일 이후 목성과 토성의 대근접은 2080년 3월 15일로 예측됩니다. 과천과학관 측은 우리가 대근접을 볼 수 있는 기회는 이번이 처음이자 마지막이 될 가능성이 크다라고 설명했 습니다.", ... "가수 김태연은 걸 그룹 소녀시대, 소녀시대-태티서 및 소녀시대-Oh!GG의 리더이자 메인보컬이다. 2004년 SM에서 주최한 청소년 베스트 선발 대회에서 노래짱 대상을 수상하며 SM 엔터테인먼트에 캐스팅되었다. 이후 3년간의 연습생을 거쳐 2007년 소녀시대의 멤버로 데뷔했다. 태연은 1989년 3월 9일 대한민국 전라북도 전주시 완산구에서 아버지 김종구, 어머니 김희자 사이의 1남 2녀 중 둘째로 태어났다. 가족으로는 오빠 김지웅, 여동생 김하연이 있다. 어릴 적부터 춤을 좋아했고 특히 명절 때는 친척들이 춤을 시키면 곧잘 추었다던 태연은 TV에서 보아를 보고 가수의 꿈을 갖게 되었다고 한다. 전주양지초등학교를 졸업하였고 전주양지중학교 2학년이던 2003년 SM아카데미 스타라이트 메인지방보컬과 4기에 들어가게 되면서 아버지와 함께 주말마다 전주에서 서울로 이동하며 가수의 꿈을 키웠다. 2004년에 당시 보컬 트레이너였던 더 원의 정규 2집 수록곡 〈You Bring Me Joy (Part 2)〉에 피처링으로 참여했다. 당시 만 15세였던 태연은 현재 활동하는 소속사 SM 엔터테인먼트에 들어가기 전이었다. 이후 태연은 2004년 8월에 열린 제8회 SM 청소년 베스트 선발 대회에서 노래짱 부문에 출전해 1위(대상)를 수상하였고 SM 엔터테인먼트에 정식 캐스팅되어 연습생 생활을 시작하게 되었다. 2005년 청담고등학교에 입학하였으나, 학교 측에서 연예계 활동을 용인하지 않아 전주예술고등학교 방송문화예술과로 전학하였고 2008년 졸업하면서 학교를 빛낸 공로로 공로상을 수상했다. 태연은 연습생 생활이 힘들어 숙소에서 몰래 뛰쳐나갔다가 하루 만에 다시 돌아오기도 했다고 이야기하기도 했다. 이후 SM엔터테인먼트에서 3년여의 연습생 기간을 거쳐 걸 그룹 소녀시대의 멤버로 정식 데뷔하게 되었다." ... ])

 

#result


['국립과천과학관 등 천문학계에 따르면 21일 저녁 목성과 토성은 1623년 이후 397년 만에 가장 가까워졌는데 크리스마스 즈음까지 남서쪽 하늘을 올려다보면 목성과 토성이 가까워지는 현상을 관측할 수 있다.', '가수 태연은 2004년 SM 청소년 베스트 선발 대회에서 노래짱 대상을 수상하고 SM 엔터테인먼트에 캐스팅되어 3년간의 연습생 기간을 거쳐 2007년 소녀시대의 멤버로 데뷔했다.']

 

 

장 점

국내에서 사용하는 대부분의 자연어 처리 모델을 종류별로 사용할 수 있게 모아두었고

자연어 처리 모델을 활용해서 할 수 있는 각 종 기능을 단순하게 구현시켜두어서 단 5줄 정도면

내가 원하는 기능을 구현할 수 있었다

우분투 로고

단점

pororo 라이브러리를 사용하기 위해서는 리눅스 환경에서 설치가 가능했다

(내부에 fairseq 이라는 라이브러리가 있는데 윈도우 환경 설치를 지원하지 않음)

버전의 호환성을 까다롭게 따짐(특히 파이토치 부분)

 

연습을 위한 프로젝트를 진행하면서 동시에 기존에 있던 프로젝트를 단순히 따라하기 보다는

필요하고 누군가 사용할 수 있는 웹 앱을 만들어 보기로 하였다

 

평소에 소소한 프로젝트를 배포할 때는 google compute engine f1.micro vm 을 사용하였으나

머신러닝 모델이 올라가는 만큼 GPU 활용이 클거 같아 로컬 pc에 우분투 20. 04 LTS를 설치해서

실행해볼 예정이며 공부를 위해서 FastAPI, React를 활용해보고자 한다

fastapi 로고
Vue.js 로고

FastAPI 프레임워크 선택한 이유?

FastAPI 선택 의도는 공식문서가 잘 되어 있으며, 기존 flask에 비해 비동기를 지원한다고 한다

비동기에 대한 개념이 아직 명확하지 않으나, 이 부분에 대해서 짚고 넘어가면서 동시에 좋은 성능을

시험해보기 위함이었다

 

Vue.js 선택 이유?

javascript, 프론트 엔드 부분은 공부가 많이 필요한 부분이기 때문에 앞으로 시행착오를 겪을 가능성이

매우 높은 부분인데, 이러한 사정에서 러닝 커브를 최소화하고, 프론트 엔드 각 프레임워크의 장점을

차용한 Vue.js를 선택하기로 하였다

Vue.js 사용 이유는 프론트엔드와 백엔드 서비스가 정확히 어떻게 이어지는지 체험하기 위해서이므로

실제 사용여부는 최소화 할 것이다

 

클론 코딩할 예제가 없고, 프레임워크도 새로이 도전하는 것이기 때문에 상당한 시행착오를 겪을 것으로

예상되지만 그것 또한 앞으로도 수많이 겪게 될 일이기 때문에 지금 미리 익숙해지는 것이 마땅하다고 여겨진다

 

반응형