17日前
オープンドメイン質問応答のための密度型パスレトリーバル
Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih

要約
オープンドメイン質問応答(QA)は、候補となる文脈を効率的に抽出するためのパッセージ検索に依存しており、従来のスパースベクトル空間モデル(例:TF-IDFやBM25)が実質的な標準手法として用いられてきた。本研究では、単純なデュアルエンコーダフレームワークを用いて、少数の質問とパッセージから学習された密度表現(dense representations)のみを用いて検索を実現可能であることを示す。広範なオープンドメインQAデータセット上で評価した結果、本研究で提案する密度表現ベースの検索器は、トップ20パッセージの検索精度において、強力なLucene-BM25システムを9%~19%の絶対値で上回り、エンドツーエンドのQAシステムが複数のオープンドメインQAベンチマークにおいて新たな最良性能(SOTA)を達成することを可能にした。