17日前
大規模なデュアルエンコーダは汎用的なリトリーバーである
Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang

要約
双エンコーダーが一つのドメイン上で訓練された場合、他のドメインへの一般化がしばしば失敗することが示されてきた。広く信じられている見解として、双エンコーダーのボトルネック層(最終スコアがクエリベクトルとドキュメントベクトルの内積によって単純に計算される構造)は、ドメイン外一般化のための有効な情報表現を可能にするにはあまりにも制限的であるとされている。本論文では、この見解に挑戦するものであり、ボトルネックの埋め込み次元を固定したまま、双エンコーダーのモデルサイズを拡大することに着目する。多段階訓練を用いることで、驚くべきことに、モデルサイズの拡大が多様な情報検索タスク、特にドメイン外一般化において顕著な性能向上をもたらすことが明らかになった。実験の結果、我々が提案する双エンコーダー、すなわち一般化可能なT5ベースの密度型検索モデル(GTR: Generalizable T5-based Dense Retriever)は、BEIRデータセット(BEIR dataset~\cite{thakur2021beir})において、ColBERT~\cite{khattab2020colbert}や既存のスパースおよび密度型検索モデルを大きく上回ることを示した。特に驚くべきことに、アブレーション研究により、GTRは非常にデータ効率が良く、MS MARCOの教師付きデータの10%のみで、ドメイン外性能の最良値を達成できることが明らかになった。すべてのGTRモデルは、https://tfhub.dev/google/collections/gtr/1 にて公開されている。