弱教師付きニューラルランキングモデル

非監督深層ニューラルネットワークは、コンピュータビジョンや自然言語処理(NLP)のタスクにおいて著しい改善を達成していますが、情報検索におけるランキングではそのような改善がまだ観察されていません。その理由は、ランキング問題の複雑さにあると考えられます。なぜなら、教師あり信号がない場合にクエリとドキュメントから学習する方法が明確でないからです。したがって、本論文では弱い教師あり信号を使用してニューラルランキングモデルを訓練することを提案します。ここでいうラベルは、人間のアノテーターまたは外部リソース(例:クリックデータ)なしで自動的に取得されます。この目的のために、BM25などの非監督ランキングモデルの出力を弱い教師あり信号として使用します。さらに、フィードフォワードニューラルネットワークに基づく単純ながら効果的な一連のランキングモデルを訓練します。我々は、点対点(point-wise)およびペア対ペア(pair-wise)モデルなど様々な学習シナリオ下での有効性を研究し、異なる入力表現(つまり、クエリ-ドキュメントペアを稠密/疎なベクトルにエンコードする方法や単語埋め込み表現を使用する方法)も検討しました。我々のネットワークは数千万の訓練インスタンスを使用して訓練され、RobustとClueWebという2つの標準コレクションで評価されました。実験結果は、適切な目的関数を使用し、弱い教師ありデータに基づいて入力表現を学習させることにより印象的な性能が得られることを示しており、RobustコレクションではBM25モデルに対してMAP(平均精度率)が13%以上向上し、ClueWebコレクションでは35%以上向上しました。また、本研究の結果は、大量の弱いラベル付きデータ(非監督IRモデルから容易に取得可能)で事前学習することで教師ありニューラルランキングモデルが大幅に恩恵を受けられることを示唆しています。