18日前

ドメイン一致型プレトレーニングタスクによるディンスリトリーバル

Barlas Oğuz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Wen-tau Yih, Sonal Gupta, Yashar Mehdad

論文の詳細を見る

要約

モデルサイズの拡大と、より大規模なデータセットへの事前学習は、現在、自然言語処理（NLP）のほぼすべてのタスクにおいて性能向上をもたらす確立された手法となっている。しかし、情報検索（Information Retrieval）分野においては、追加の事前学習がこれまで明確な成果をもたらさなかったという顕著な例外がある。本研究では、適切な事前学習設定を採用することで、この障壁を克服可能であることを示す。具体的には、1）最近公開された6500万件の合成生成質問データセット、および2）pushshift.ioによって提供されたReddit会話データセットから抽出された2億件の投稿-コメントペアを用いて、大規模なバイエンコーダー・モデルの事前学習を実施する。これらのモデルを情報検索および対話型情報検索のベンチマークで評価した結果、従来の教師あり学習ベースラインに対して顕著な性能向上が得られた。