6ヶ月前

概要

長文質問応答（Long-Form Question Answering, LFQA）の課題は、与えられた質問に関連する文書を検索し、それらを基に段落レベルの回答を生成することにある。近年、LFQA向けに多数のモデルが提案されてきたが、本論文では、このタスクの定式化が評価およびデータセット作成において根本的な課題を生じており、現状では有意義なモデルの進展を妨げていることを示す。これらの課題を明確にするために、まず、スパースなアテンションと対照的検索学習（contrastive retriever learning）を活用した新規システムを設計し、ELI5 LFQAデータセットにおいて最先端の性能を達成した。このシステムは公開リーダーボードで首位を獲得したものの、詳細な分析から以下の懸念すべき傾向が明らかになった。（1）本システムが生成する回答は、実際に検索した文書に基づいていない；（2）ELI5データセットには、トレーニングデータとバリデーションデータの間に顕著な重複が存在し、少なくとも81％のバリデーション質問がトレーニングセット内で言い換えられた形で登場している；（3）ROUGE-Lは生成回答の質を適切に反映する指標ではなく、容易に操作可能である；（4）他のテキスト生成タスクで用いられる人間評価は、LFQAには信頼性が低い。これらの問題に対処するための提案を提示する。これらが今後のより厳密なLFQA研究と、実質的な進展の促進に寄与することを期待する。

ソースPDF