11일 전

오픈 도메인 다중문서 요약: 검색 환경 하에서 모델의 취약성에 대한 종합적 연구

John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan
오픈 도메인 다중문서 요약: 검색 환경 하에서 모델의 취약성에 대한 종합적 연구
초록

다중문서 요약(Multi-document summarization, MDS)은 주제 관련 문서 집합을 입력으로 제공받는다고 가정한다. 실제 적용에서는 이러한 문서 집합이 항상 제공되는 것은 아니며, 정보 필요성(예: 질문 또는 주제 진술)에 따라 검색되어야 하는 상황이므로, 이를 '오픈 도메인(open-domain)' MDS라고 부르는 설정이 존재한다. 본 연구는 기존 데이터셋, 검색기(retriever), 요약기(summarizer)를 활용하여 이 더 도전적인 설정을 공식화하고 부트스트랩(bootstrapping)하는 방식으로 탐구한다. 광범위한 자동 평가와 인공 평가를 통해 다음과 같은 결과를 도출하였다: (1) 최신 기술 수준의 요약기들은 오픈 도메인 MDS에 적용될 경우 성능이 크게 저하된다; (2) 오픈 도메인 환경에서의 추가 학습은 불완전한 검색에 대한 민감도를 줄일 수 있다; (3) 중복 문서의 검색이나 검색된 문서의 순서는 요약기에 큰 영향을 주지 않지만, 관련 없는 문서의 검색과 같은 다른 오류는 매우 민감하게 반응한다. 본 연구의 결과를 바탕으로, 향후 오픈 도메인 MDS 연구를 위한 실용적인 지침을 제시한다. 예를 들어, 요약할 문서 수를 어떻게 선택할 것인지에 대한 가이드라인을 포함한다. 연구 결과는 오픈 도메인 환경에서의 추가 발전을 위해 새로운 검색 및 요약 기법, 그리고 학습과 평가를 위한 주석 데이터 자원이 필요하다는 점을 시사한다.

오픈 도메인 다중문서 요약: 검색 환경 하에서 모델의 취약성에 대한 종합적 연구 | 최신 연구 논문 | HyperAI초신경