17日前

長文質問応答における進展の障壁

Kalpesh Krishna, Aurko Roy, Mohit Iyyer
長文質問応答における進展の障壁
要約

長文質問応答(Long-Form Question Answering, LFQA)の課題は、与えられた質問に関連する文書を検索し、それらを基に段落レベルの回答を生成することにある。近年、LFQA向けに多数のモデルが提案されてきたが、本論文では、このタスクの定式化が評価およびデータセット作成において根本的な課題を生じており、現状では有意義なモデルの進展を妨げていることを示す。これらの課題を明確にするために、まず、スパースなアテンションと対照的検索学習(contrastive retriever learning)を活用した新規システムを設計し、ELI5 LFQAデータセットにおいて最先端の性能を達成した。このシステムは公開リーダーボードで首位を獲得したものの、詳細な分析から以下の懸念すべき傾向が明らかになった。(1)本システムが生成する回答は、実際に検索した文書に基づいていない;(2)ELI5データセットには、トレーニングデータとバリデーションデータの間に顕著な重複が存在し、少なくとも81%のバリデーション質問がトレーニングセット内で言い換えられた形で登場している;(3)ROUGE-Lは生成回答の質を適切に反映する指標ではなく、容易に操作可能である;(4)他のテキスト生成タスクで用いられる人間評価は、LFQAには信頼性が低い。これらの問題に対処するための提案を提示する。これらが今後のより厳密なLFQA研究と、実質的な進展の促進に寄与することを期待する。

長文質問応答における進展の障壁 | 最新論文 | HyperAI超神経