18日前

エンドツーエンドクエリTERMウェイトリング

{Marc Najork, Mike Bendersky, Kashyap Kolipaka, Xingyu Wang, Wensong Xu, Swaraj Khadanga, Shaleen Gupta, Mingyang Zhang, Tao Chen, Weize Kong, Cheng Li, Karan Samel}
要約

単語の袋(Bag-of-words)に基づく語彙検索システムは、現実世界の検索アプリケーションにおいて依然として最も一般的に使用されている手法である。近年、ディープラーニングに基づく手法が検索性能の向上に有望な結果を示しているが、オンライン環境での実行コストが高く、既存のプロダクションシステムへの統合が容易ではない上、ドメイン外の検索シナリオでは一般化性能が十分に発揮されない可能性がある。これに対して、我々は語彙検索器の上に構築する形で、Term Weighting BERT(TW-BERT)モデルを提案する。TW-BERTは、クエリ入力における個々のn-gram(例えばユニグラムやバイグラム)に対して重みを予測する能力を学習する。このように推定された重みと語彙は、検索システムがクエリ検索を実行する際に直接利用可能である。これらの語彙重みを最適化するため、TW-BERTは検索エンジンで用いられるスコア関数(例:BM25)を組み込み、クエリ-文書ペアのスコアを算出する。サンプルとなるクエリ-文書ペアに対して、これらのマッチングスコアに基づいてランキング損失を計算することで、学習されたクエリ語彙の重みをエンドツーエンドの形で最適化する。TW-BERTを検索エンジンのスコア関数と整合させることで、既存のプロダクションアプリケーションへの統合に必要な変更を最小限に抑えることができる。これに対して、従来のディープラーニングベースの検索手法は、さらなるインフラストラクチャの最適化やハードウェアリソースの拡張を要する。学習された重みは、標準的な語彙検索器や、クエリ拡張などの他の検索技術にも容易に活用できる。本研究では、MSMARCOデータセットにおける強力な語彙重み付けベースラインおよびTRECデータセットにおけるドメイン外検索において、TW-BERTが検索性能の向上を示すことを実証した。