11일 전

텍스트 세그멘테이션과 장문 요약을 통합하는 방향으로

Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Fei Liu, Dong Yu
텍스트 세그멘테이션과 장문 요약을 통합하는 방향으로
초록

문서의 구조를 명확히 하기 위해 텍스트 세그멘테이션은 매우 중요한 역할을 한다. 긴 문서를 주제적으로 일관된 섹션으로 나누지 않으면, 독자가 텍스트를 이해하는 데 어려움을 겪을 뿐만 아니라 중요한 정보를 찾는 것도 불가능에 가깝다. 이 문제는 오디오·비디오 녹화 자료의 전사본에서 세그멘테이션 부재로 인해 더욱 악화된다. 본 연구에서는 서면 및 구두 문서의 추출형 요약(extractive summarization)에서 섹션 세그멘테이션의 역할을 탐구한다. 제안하는 방법은 요약과 세그멘테이션을 동시에 수행함으로써 강건한 문장 표현을 학습하며, 더불어 다양성 있는 요약 문장을 선택하도록 유도하는 최적화 기반 정규화 항(regularizer)을 추가로 적용하여 성능을 향상시킨다. 과학 논문부터 구두 전사본에 이르기까지 다양한 데이터셋에서 실험을 수행하여 모델의 성능을 평가하였다. 실험 결과, 제안 모델은 공개된 벤치마크에서 최상의 성능을 달성할 뿐 아니라, 텍스트 세그멘테이션을 도입할 경우 장르 간 전이 성능(transferability)이 더욱 우수함을 확인하였다. 또한, 긴 길이와 높은 복잡성을 지닌 서면 및 구두 문서 요약에 있어 섹션 세그멘테이션의 영향을 정량적으로 분석하는 일련의 실험을 수행하였다.

텍스트 세그멘테이션과 장문 요약을 통합하는 방향으로 | 최신 연구 논문 | HyperAI초신경