6ヶ月前

概要

テキスト埋め込み（text embeddings）の評価は、通常、一つのタスクに限定された少数のデータセット上で行われており、他のタスクへの応用可能性を十分にカバーしていない。セマンティック・テキスト類似度（STS）において最先端の埋め込み手法が、クラスタリングやリランキングなどの他のタスクにも同等に適用可能かどうかは明らかでない。このため、さまざまなモデルが断続的に提案されているにもかかわらず、適切な評価が行われていない状況では、分野の進展を追うことが困難になっている。この問題を解決するため、我々は「マスィブ・テキスト埋め込みベンチマーク（Massive Text Embedding Benchmark: MTEB）」を導入する。MTEBは、合計58のデータセット、112の言語をカバーする8つの埋め込みタスクを網羅している。MTEB上で33のモデルを評価した結果、これまでで最も包括的なテキスト埋め込みベンチマークを確立した。その結果、どの特定の埋め込み手法もすべてのタスクにおいて優位性を示すわけではないことが明らかになった。これは、分野がまだ普遍的なテキスト埋め込み手法の確立に至っておらず、すべての埋め込みタスクで最先端の結果を提供できるほど十分にスケールアップされていないことを示唆している。MTEBは、オープンソースのコードと公開リーダーボード（https://github.com/embeddings-benchmark/mteb）を併せて提供している。

ソースPDF