2달 전

프리트레이닝이 클러스터링과 만난다: 하이브리드 추출형 다중문서 요약 모델

{Seba Susan, Akanksha Karotia}
프리트레이닝이 클러스터링과 만난다: 하이브리드 추출형 다중문서 요약 모델
초록

인터넷을 통해 정보가 폭발적으로 증가한 현시대에는 관련 정보를 수동으로 추출하고 소비하는 것은 매우 어렵고 시간이 많이 소요된다. 따라서 유사하거나 관련된 주제를 공유하는 문서 집합에서 중요한 정보를 자동으로 추출할 수 있는 문서 요약 도구의 필요성이 커지고 있다. 다중 문서 요약 기술은 중복을 최소화하면서 여러 문서들로부터 중요한 정보를 효과적으로 추출할 수 있다. 본 연구에서는 비지도 추출 기반 접근법을 활용하여 다중 문서 텍스트 요약 시스템을 개발하였다. 제안된 모델은 T5 사전 훈련된 트랜스포머 모델과 K-평균 군집화 알고리즘의 두 가지 학습 패러다임을 융합한 구조를 취하고 있다. 실험은 기준 뉴스 기사 코퍼스인 Document Understanding Conference(DUC2004)를 대상으로 수행되었으며, 제안된 방법의 성능 평가에는 ROUGE 평가 지표를 사용하였다. 실험 결과, 기존의 비지도 최신 기술 대비 본 연구에서 제안한 모델이 훨씬 뛰어난 성능을 보임을 입증하였다.