2달 전

FENICE: 자연어 추론 및 주장을 추출한 요약의 사실성 평가

Alessandro Scirè; Karim Ghonim; Roberto Navigli
FENICE: 자연어 추론 및 주장을 추출한 요약의 사실성 평가
초록

최근 텍스트 요약 분야에서, 특히 대형 언어 모델(Large Language Models, LLMs)의 등장으로 뛰어난 성능이 보여졌습니다. 그러나 여전히 자동 생성된 요약 중 상당수가 사실과 일치하지 않는 문제, 예를 들어 환각(hallucinations) 현상이 발생하는 등의 도전 과제가 남아 있습니다. 이 문제에 대응하기 위해 요약의 일관성을 평가하기 위한 다양한 접근법이 제안되었습니다. 하지만 이러한 새로운 지표들은 해석 가능성 부족, 짧은 문서 요약(예: 뉴스 기사)에 초점을 맞추는 경향, 그리고 특히 LLM 기반 지표에서 계산상의 비현실성 등의 여러 제한점을 가지고 있습니다.이러한 단점을 해결하기 위해 우리는 자연어 추론(Natural Language Inference, NLI) 및 주장(Claim) 추출을 기반으로 한 사실성 평가(Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction, FENICE)를 제안합니다. FENICE는 원문서와 요약에서 추출된 일련의 원자적 사실들(주장이라고도 함) 사이의 NLI 기반 정렬을 활용합니다. 우리의 지표는 사실성 평가의 표준 벤치마크인 AGGREFACT에서 새로운 최고 수준의 성능을 달성하였습니다. 또한, 더욱 어려운 환경에서 평가를 확장하기 위해 장문 요약에 대한 인간 주석 프로세스를 수행하였습니다.요약의 사실성 평가 연구를 촉진하기 위해, 우리는 FENICE 지표의 코드와 장문 요약에 대한 사실성 주석을 https://github.com/Babelscape/FENICE 에 공개합니다.

FENICE: 자연어 추론 및 주장을 추출한 요약의 사실성 평가 | 최신 연구 논문 | HyperAI초신경