HyperAIHyperAI

Command Palette

Search for a command to run...

MTEB:マスィブ・テキスト埋め込みベンチマーク

Niklas Muennighoff Nouamane Tazi Loïc Magne Nils Reimers

概要

テキスト埋め込み(text embeddings)の評価は、通常、一つのタスクに限定された少数のデータセット上で行われており、他のタスクへの応用可能性を十分にカバーしていない。セマンティック・テキスト類似度(STS)において最先端の埋め込み手法が、クラスタリングやリランキングなどの他のタスクにも同等に適用可能かどうかは明らかでない。このため、さまざまなモデルが断続的に提案されているにもかかわらず、適切な評価が行われていない状況では、分野の進展を追うことが困難になっている。この問題を解決するため、我々は「マスィブ・テキスト埋め込みベンチマーク(Massive Text Embedding Benchmark: MTEB)」を導入する。MTEBは、合計58のデータセット、112の言語をカバーする8つの埋め込みタスクを網羅している。MTEB上で33のモデルを評価した結果、これまでで最も包括的なテキスト埋め込みベンチマークを確立した。その結果、どの特定の埋め込み手法もすべてのタスクにおいて優位性を示すわけではないことが明らかになった。これは、分野がまだ普遍的なテキスト埋め込み手法の確立に至っておらず、すべての埋め込みタスクで最先端の結果を提供できるほど十分にスケールアップされていないことを示唆している。MTEBは、オープンソースのコードと公開リーダーボード(https://github.com/embeddings-benchmark/mteb)を併せて提供している


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています