シンプルなエンティティ中心の質問がドレインリトリーバーに挑戦する

近年、密なリトリーブモデル(dense retrieval models)の成功に伴い、オープンドメイン質問応答(open-domain question answering)の分野は急激に注目を集めてきた。これらのモデルは、わずかな教師付き学習例を用いるだけで、従来のスパースモデルを上回る性能を示している。しかし本論文では、現在の密なリトリーブモデルがまだリトリーブの「万能薬(holy grail)」ではないことを示す。まず、Wikidataの事実に基づくシンプルでエンティティを豊富に含む質問のセット「EntityQuestions」を構築し、例えば「アーヴェ・フールセトはどこで生まれたか?」といった質問を用いて検証した結果、密なリトリーブモデルがスパース手法に対して著しく性能を発揮できないことが明らかになった。この問題を調査した結果、密なリトリーブモデルは、訓練中に明示的に観測された質問パターンにしか一般化できないことが判明した。これは、一般的なエンティティに対しては機能するが、訓練データに含まれていない新しいエンティティや質問構造には対応できないという限界である。本研究では、この重要な課題に対処するための2つのシンプルな解決策を提案する。第一に、データ拡張(data augmentation)がこの一般化問題を根本的に解決できないことを実証する。第二に、より堅牢なパラグラフエンコーダー(passage encoder)を導入することで、専用の質問エンコーダー(question encoder)との連携により、質問の適応性が向上することを議論する。本研究が、さまざまな入力分布にわたって安定して高い性能を発揮できる、普遍的かつ堅牢な密なリトリーブモデルの構築に向けた課題に光を当てるものであることを期待する。