11일 전

프리트레이닝이 클러스터링과 만난다: 하이브리드 추출형 다중문서 요약 모델

{Seba Susan, Akanksha Karotia}
초록

인터넷을 통해 정보가 폭발적으로 증가한 현시대에는 관련 정보를 수동으로 추출하고 소비하는 것은 매우 어렵고 시간이 많이 소요된다. 따라서 유사하거나 관련된 주제를 공유하는 문서 집합에서 중요한 정보를 자동으로 추출할 수 있는 문서 요약 도구의 필요성이 커지고 있다. 다중 문서 요약 기술은 중복을 최소화하면서 여러 문서들로부터 중요한 정보를 효과적으로 추출할 수 있다. 본 연구에서는 비지도 추출 기반 접근법을 활용하여 다중 문서 텍스트 요약 시스템을 개발하였다. 제안된 모델은 T5 사전 훈련된 트랜스포머 모델과 K-평균 군집화 알고리즘의 두 가지 학습 패러다임을 융합한 구조를 취하고 있다. 실험은 기준 뉴스 기사 코퍼스인 Document Understanding Conference(DUC2004)를 대상으로 수행되었으며, 제안된 방법의 성능 평가에는 ROUGE 평가 지표를 사용하였다. 실험 결과, 기존의 비지도 최신 기술 대비 본 연구에서 제안한 모델이 훨씬 뛰어난 성능을 보임을 입증하였다.

프리트레이닝이 클러스터링과 만난다: 하이브리드 추출형 다중문서 요약 모델 | 최신 연구 논문 | HyperAI초신경