17日前

対照学習を用いた教師なしディープ情報検索

Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, Edouard Grave

要約

近年、情報検索分野では、語彙頻度に基づく従来のスパース手法の代替として、ニューラルネットワークを用いた密度型リトリーバ（dense retriever）の登場が目立っている。これらのモデルは、大規模な訓練データが利用可能なデータセットやタスクにおいて、最先端の性能を達成している。しかし、訓練データが存在しない新たなアプリケーションへの一般化能力は低く、BM25を含む無監視の語彙頻度ベース手法に劣ることが多い。本研究では、対照学習（contrastive learning）を用いた無監視密度型リトリーバの訓練手法の限界を検討し、さまざまなリトリーブ設定において優れた性能を発揮することを示した。BEIRベンチマークにおいて、我々の無監視モデルは15のデータセットのうち11でRecall@100においてBM25を上回った。また、少数のドメイン内例（数千件）または大規模なMS~MARCOデータセットを用いたファインチューニングの前段階として事前学習に用いる場合、BEIRベンチマーク上で性能の向上が見られた。さらに、英語よりもさらに限られた訓練データが存在する多言語リトリーブにおいても、本手法が強力な無監視性能を発揮することを実証した。特に、監視付き英語データのみでファインチューニングしたモデルは、スワヒリ語など低リソース言語での評価においても強力なクロスリンガル転移能力を示した。さらに、本モデルが異なる文字体系間（例：アラビア語クエリから英語文書を検索）でのクロスリンガルリトリーブを可能にすることも示した。これは、従来の語彙マッチング手法では実現できない能力である。