16일 전

GoSum: 강화학습과 그래프 기반 논의 상태를 활용한 장문문서의 추출형 요약

Junyi Bian, Xiaodi Huang, Hong Zhou, Shanfeng Zhu
GoSum: 강화학습과 그래프 기반 논의 상태를 활용한 장문문서의 추출형 요약
초록

긴 문서에서 요약문을 추출하는 것은 문서의 구조적 정보를 활용한 문장 분류로 간주할 수 있다. 이러한 구조적 정보를 어떻게 활용하여 문서를 요약할 것인지에 대한 문제는 여전히 도전 과제이다. 본 논문에서는 긴 논문 요약을 위한 새로운 그래프 기반 및 강화 학습 기반 추출형 모델인 GoSum을 제안한다. 특히 GoSum은 입력 문서에 대해 다양한 담론 수준에서 이질적 그래프(heterogeneous graph)를 구축함으로써 강화 학습에서 문장 상태를 인코딩한다. 그래프 내의 엣지(edge)는 문서의 담론 계층 구조를 반영하여 섹션 경계를 넘는 의미의 왜곡(sematic drift)을 억제한다. 제안된 모델은 과학 논문 요약을 위한 두 가지 데이터셋인 PubMed와 arXiv에서 평가되었다. 실험 결과, GoSum은 추출형 및 생성형 모델의 강력한 기준 모델들과 비교하여 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다. 추가적인 아블레이션 연구(ablation study)를 통해 GoSum의 성능 향상이 담론 정보를 활용함으로써 비롯됨을 더욱 명확히 검증하였다.

GoSum: 강화학습과 그래프 기반 논의 상태를 활용한 장문문서의 추출형 요약 | 최신 연구 논문 | HyperAI초신경