17日前
RocketQA:オープンドメイン質問応答のための密度型パラグラフ検索における最適化されたトレーニングアプローチ
Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu, Haifeng Wang

要約
オープンドメイン質問応答において、密度型パラグラフ検索(dense passage retrieval)は、回答を特定するための関連パラグラフを検索する新しいアーキテクチャとして注目されている。一般的に、質問とパラグラフの意味的整合性を学習するために、二重エンコーダー(dual-encoder)構造が採用される。しかし、訓練と推論の間の乖離、ラベルなしの陽性サンプル(unlabeled positives)の存在、および限られた訓練データといった課題により、二重エンコーダーの有効な訓練は困難である。これらの課題に対処するため、我々は密度型パラグラフ検索の性能を向上させるための最適化された訓練手法、すなわちRocketQAを提案する。RocketQAでは、以下の3つの主要な技術的貢献を実現している:バッチ間ネガティブサンプル(cross-batch negatives)、ノイズ除去型ハードネガティブサンプル(denoised hard negatives)、およびデータ拡張(data augmentation)。実験の結果、RocketQAはMSMARCOおよびNatural Questionsの両方において、従来の最先端モデルを顕著に上回ることが示された。さらに、RocketQAにおける3つの戦略の有効性を広範な実験を通じて検証した。また、本研究では、RocketQAによる検索エンジンを用いることで、エンドツーエンドの質問応答システム全体の性能が向上することも示した。