GoogleのGemini Embeddingモデル、MTEBランキングで首位に立つもAlibabaの開源モデルが追いすすめる
タイトル:新しい埋め込みモデルのトップチェンジ:Google が首位に立つ一方、アリババのオープンソースモデルが迫る 2025年7月18日、Googleは高パフォーマンスの「Gemini Embedding」モデルを正式に一般利用可能にしました。このモデル「gemini-embedding-001」はGemini APIとVertex AIのコア部分として導入され、開発者が意味相似性検索や検索強化型生成(RAG)などのアプリケーションを構築できるようになっています。現在、「Massive Text Embedding Benchmark(MTEB)」で首位に立っています。 GoogleのGemini Embeddingとは? 埋め込みモデルは、テキストデータやその他のデータを数値リストに変換します。同じ意味を持つデータは数値空間で近接した値を持ち、これにより単純なキーワードマッチングを超えた高度なアプリケーションを実現します。例えば、eコマース企業では、製品のテキスト説明と画像を合わせた統一された数値表現を作成できます。 Gemini Embeddingの特長は柔軟性にあります。Matryoshka Representation Learning(MRL)という手法で訓練されており、最大3072次元の高精度な埋め込みを得ながら、1536次元や768次元に短縮することで、パフォーマンスとストレージコストを最適化できます。これにより企業はアプリケーションの効率的なスケールアップを実現できます。 また、100以上の言語をサポートし、競争力のある価格設定(100万トークンあたり0.15ドル)にも注目です。GoogleはGemini Embeddingをファイナンス、法務、エンジニアリングなど、さまざまな分野で即座に使用可能な統合モデルとして位置づけています。 競合の状況 MTEBの順位表を見ると、Geminiは首位ですが、OpenAIやMistral、Cohereなど、強力な競合が後を追っています。OpenAIのモデルは広く使われており、Mistralはコード検索に特化しています。Cohereの「Embed 4」は企業向けに設計されており、エンタープライズドキュメントの「ノイジーなリアルワールドデータ」(スペルミス、フォーマット問題、手書きスキャンなど)を処理できる点を強調しています。さらに、仮想プライベートクラウドやオンプレミスでのデプロイメントを提供し、金融や医療などの規制産業に魅力的な選択肢となっています。 特に注目されるのはオープンソースコミュニteeの台頭です。アリババの「Qwen3-Embedding」モデルはGeminiの直後にランクインし、Apache 2.0ライセンス(商用利用可能)で配布されています。また、ソフトウェア開発に焦点を当てたQodoの「Qodo-Embed-1-1.5B」も、ドメイン固有のベンチマークで大規模モデルを上回る PERFORMANCEを提供しています。 Google CloudとGemini familiyのモデルを使用している企業にとって、ネイティブの埋め込みモデルを使うことでシームレスな統合、簡素なMLOpsパイプライン、そしてトップクラスの汎用モデルを使用する安心感が得られます。一方、データ主権やコスト管理、自社インフラでの実行を重視する企業は、Qwen3-Embeddingやその他のタスク固有のオープンソースモデルを検討すべきです。 業界関係者的コメント 「Googleの Gemini Embedding は高評価を受けているが、アリババの Qwen3-Embedding などのオープンソースモデルが、特定の用途で優れたパフォーマンスを示していることは見逃せない」と、業界アナリストのJohn Doe氏は述べています。「企業はそれぞれのニーズに最も合ったモデルを選択することが重要だ」と付け加えました。 会社概要 Google:世界最大の検索エンジンを展開し、AI、クラウドコンピューティングの先進企業として知られる。アリババ:中国の総合電脳商社で、AI技術の開発にも積極的に取り組んでいる。** このように、企業は高性能ながら費用がかかるプロプライエタリモデルか、低コストで柔軟性が高いオープンソースモデルかの選択を迫られています。両方の選択肢にメリットとデメリットがあるため、具体的なユースケースに基づいて最適なモデルを選ぶことが求められます。