8ヶ月前

概要

最近のテキスト要約における進歩、特に大規模言語モデル（Large Language Models: LLMs）の登場により、著しい性能が示されています。しかし、自動生成された要約の多くが事実上の不整合、例えば幻覚的な情報（hallucinations）を含むという問題が依然として存在しています。この課題に対応するため、要約の一貫性評価に関する様々な手法が提案されています。しかしながら、これらの新しく導入された指標には解釈可能性の欠如、短いドキュメント要約（例：ニュース記事）への焦点化、特にLLMベースの指標における計算上的な非現実性などの制限があります。これらの欠点を解決するために、我々は自然言語推論と主張抽出に基づく事実性評価（Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction: FENICE）を提案します。FENICEは、ソースドキュメント内の情報と要約から抽出された一連の原子的事実（claims）との間でNLIベースの対応付けを行い、より解釈可能で効率的な事実性指向の指標を提供します。当社の指標はAGGREFACTという事実性評価のデファクト標準ベンチマークにおいて新たな最先端を達成しました。さらに、長期的な要約の一貫性評価というより困難な設定にも対応するため、人間による注釈プロセスを行いました。研究コミュニティに貢献することを目指し、FENICEのコードおよび長期的な要約的事実性注釈データをhttps://github.com/Babelscape/FENICE にて公開しています。

ソースPDF