17일 전

GenCompareSum: 중요도를 활용한 하이브리드 비지도 요약 방법

{Sophia Ananiadou, Qianqian Xie, Jennifer Bishop}
GenCompareSum: 중요도를 활용한 하이브리드 비지도 요약 방법
초록

텍스트 요약(TS)은 중요한 자연어 처리(NLP) 작업이다. 사전 학습된 언어 모델(PLMs)은 TS의 성능을 향상시키는 데 활용되어 왔다. 그러나 PLMs는 레이블이 붙은 학습 데이터에 의존해야 하며, 주의 메커니즘(attention mechanism)의 한계로 인해 긴 문서 처리에 적합하지 않은 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 추상적(abstract)과 추출적(extractive) 방식을 결합한 비지도(hybrid, unsupervised) 접근법을 제안한다. 이 방법은 문서를 순차적으로 탐색하며 주요 내용을 대표하는 중요한 텍스트 조각(salient textual fragments)을 생성한다. 이후 생성된 텍스트와 가장 유사한 문장을 BERTScore를 활용해 계산하여 문서에서 가장 중요한 문장을 선별한다. 우리는 생물의학 및 일반 과학 분야의 문서를 대상으로, 중요한 텍스트 조각을 생성하고 이를 추출적 요약을 안내하는 데 효과적으로 활용하는지 평가한다. 다양한 생성형 텍스트 모델(다양한 문맥에서 관련 질의 또는 문서 제목을 생성하도록 미세조정된 모델)을 사용하여 긴 문서와 짧은 문서 간의 성능을 비교한다. 결과적으로, 방대한 레이블 데이터가 필요하지 않음에도 불구하고, 제안하는 하이브리드 접근법이 기존의 비지도 방법뿐 아니라 최첨단 지도 학습 기반 방법보다도 뛰어난 성능을 보임을 입증한다.