17日前

ColBERTv2:軽量なラテント相互作用による効果的かつ効率的なリトリーバル

Keshav Santhanam, Omar Khattab, Jon Saad-Falcon, Christopher Potts, Matei Zaharia
ColBERTv2:軽量なラテント相互作用による効果的かつ効率的なリトリーバル
要約

ニューラル情報検索(IR)は、検索やその他の知識集約型言語タスクにおいて大きく進展を遂げてきた。多くのニューラルIR手法がクエリとドキュメントを単一ベクトル表現にエンコードする一方で、ラテンインタラクションモデル(late interaction models)は、各トークンの粒度で多ベクトル表現を生成し、関連性モデリングをスケーラブルなトークンレベルの計算に分解する。この分解は、ラテンインタラクションモデルの効果を高めることを実証しているが、同時にモデルのメモリ容量を1桁程度まで増大させるという課題をもたらしている。本研究では、激しい残差圧縮機構とノイズ除去型の教師信号戦略を組み合わせることで、ラテンインタラクションモデルの精度とメモリ効率の両方を同時に向上させる、ColBERTv2という検索器を提案する。ColBERTv2は広範なベンチマークにおいて評価され、訓練ドメイン内および外で最先端の性能を達成するとともに、ラテンインタラクションモデルのメモリ容量を6〜10倍まで削減することに成功した。

ColBERTv2:軽量なラテント相互作用による効果的かつ効率的なリトリーバル | 最新論文 | HyperAI超神経