2ヶ月前
弱教師付き対照的前学習によるテキスト埋め込み
Liang Wang; Nan Yang; Xiaolong Huang; Binxing Jiao; Linjun Yang; Daxin Jiang; Rangan Majumder; Furu Wei

要約
本論文では、最先端のテキスト埋め込みモデルであるE5を紹介します。このモデルは、我々がキュレーションした大規模なテキストペアデータセット(CCPairsと呼ぶ)から得られる弱い監督信号を使用して、対照的な方法で学習されています。E5は、検索、クラスタリング、分類など、単一ベクトル表現が必要なあらゆるタスクに汎用的に使用でき、ゼロショット設定とファインチューニング設定の両方で優れた性能を達成しています。我々はBEIRおよびMTEBベンチマークから56のデータセットに対して広範な評価を行いました。ゼロショット設定において、E5はラベル付きデータを使用せずに強力なBM25ベースラインを上回った初のモデルとなりました。ファインチューニングされた場合、E5は既存の40倍以上のパラメータを持つ埋め込みモデルを上回り、MTEBベンチマークで最良の結果を得ています。