먼저 이 글은 개인적인 공부를 위해 구글링한 내용들 기반으로 정리한 글입니다. (출처는 하단에)
다소 낮은 눈높이와 이해력을 가지고 있기때문에 틀리거나 다른 부분이 있을 수 있습니다.(없는 부분마저 존재!)
그렇기때문에 지속적인 업데이트와 피드백 수용하니 많은 지원 바랍니다(?) 넓은 마음으로 봐주세요
아래 내용은 제가 기억을 잃고 다시 읽게 되었을때 무슨 글인지 알 수 있도록 풀어서 쓸 예정입니다.
TextRank
"텍스트 요약"
텍스트 요약(Text summarization)을 하는 이유가 뭘까?
다른 이유도 많겠지만 복잡도를 줄이면서 필요한 정보 제공 및 유지에 용이합니다.
텍스트 요약(Text summarization)에는 크게 두가지 방법이 있습니다.
1. 추출 요약(Extract)
추출 요약은 간단하게 문서에 존재하는 단어나 구문, 문장등을 그대로 "추출"
그래서 쉽게 접근 할 수 있지만, 가독성이 부족해 질 수 있습니다.
2. 생성 요약(Abstract)
생성 요약은 문서의 내용을 압축, 새로운 문서를 작성합니다.
해서 자연어 생성에 대한 기술과 지식이 필수적입니다. + 특정 도메인의 충분한 학습 데이터 필요
다른 방법도 무수히 많습니다.
포괄적 요약 / 질의기반 요약
지시적 요약 / 정보적 요약
단일문서 요약 / 다중문서 요약
하지만 지금 우리가 공부할 것은 추출 요약의 대표주자, TextRank 에 대해서 알아봅시다.
더 궁금하신 분은 2001년 자료지만 여기 들어가셔서 읽어보시면 도움 될 것 같습니다
TextRank 알고리즘은 Rada Mihalcea, Paul Tarau 컴-공 교수님들께서
작성한 Graph-Based Ranking Model 논문을 기반으로 한 알고리즘입니다.
이는 Google의(래리 페이지, 세르게이 브린. 구글 대빵 맞슴다.) PageRank를 활용한 알고리즘인데 간단하게 말해서
하이퍼링크(바로 위처럼 링크 달린 문장!)를 가진 웹 문서에 "상대적 중요도"에 따라 가중치를 부여하는 방법.
서로 인용, 참조로 연결된 임의의 묶음에 적용할 수 있습니다.
(나무위키)
PageRank가 높은 웹페이지는 다른 사이트가 참조를 많이 한 것으로 해석할 수 있습니다.
예시) 페이지 A가 페이지 B,C,D 총 3개의 링크를 걸었다면 페이지 B는 페이지 A 랭크 값의 1/3 만큼 가져온다는 뜻
무슨말이지?
나무위키에서 잘생긴 Westlife 형님들 사이트에 들어갔다고 치자, 웨스트 라이프 항목을 쭉 읽다가
존잘 셰인 필란의 항목이 눈에 띄여 들어갔다. 이후 그의 동료가 궁금하여 키안 이건 항목으로 들어간다.다시 Westlife의 항목을 살펴보게 되었다.
그러면 순서가 Westlife >> 셰인 필란 >> 키안 이건 >> Westlife이 됩니다.여기서 Rank가 가장 높은 페이지는 Westlfie가 될 것입니다.
-출처 (위키피디아 - PageRank) - << 자세한 내용은 여기서!
참고 - 세르게이 브린의 PageRank 논문 번역본
다시 돌아와서, 이 PageRank 알고리즘을 활용한 것이 바로 TextRank !
PageRank가 다른 여러 웹 사이트들로 링크를 받아 중요도를 판단한다는 점을 응용해
문서내의 문장, 단어를 이용해 문장의 Rank를 계산하는 알고리즘입니다.
논문에 따르면 voting 또는 recommendation의 아이디어를 생각해냈다고 하는데,
한 A 꼭짓점(vertex)과 B 꼭지점이 연결되고 이를 연결한 꼭지점에 투표(vote)했다고 봤을때
투표수가 많아질 수록 특정 꼭지점의 중요도는 점점 커지게 된다.
이 투표수에 따라 Rank가 매겨지는 것!
몬가.. PageRank가 내용이 더 많아 보이는건 착각이 아닙니다..
수식은 조금 더 공부하고 수정, 업데이트 하도록 하겠습니다.
수학 넘모 어려워..
출처 및 참고 :
위키피디아