Googleが公開した新モデル「EmbeddingGemma」:308Mパラメータで100言語対応、オンデバイス向け高効率多言語埋め込みモデル
Googleが新たな効率的なテキスト埋め込みモデル「EmbeddingGemma」を公開した。このモデルは308Mパラメータで、2048トークンのコンテキスト窓を備え、100以上の言語をサポート。特にモバイルデバイスやオンデバイス用途に最適化されており、量子化後は200MB未満のRAM使用で動作する。Google DeepMindが開発したEmbeddingGemmaは、MTEB(Massive Text Embedding Benchmark)における500M未満のモデルで最高評価を獲得。特に多言語対応の文書検索やリトリーバル・オーガナイズド・ジェネレーション(RAG)パイプラインに強力な基盤を提供する。 モデルのアーキテクチャは、Gemma3のエンコーダー構造を採用。因果的アテンションではなく双方向アテンションを用いることで、文の全体をより正確に理解できる。トークン埋め込みの後に平均プーリングと2層の全結合層を経て、768次元の最終埋め込みベクトルを出力。さらに、マトリョーシカ表現学習(MRL)により、512、256、128次元に自由に圧縮可能で、メモリ使用量と処理速度を大幅に削減できる。 EmbeddingGemmaは、Sentence Transformers、LangChain、LlamaIndex、Haystack、txtai、Transformers.js、Text Embedding Inference(TEI)、ONNX Runtimeなど、多数のフレームワークと連携可能。特に、検索タスク用に「query: task: search result | query: 」や「document: title: none | text: 」といったプロンプトを明示的に指定する必要がある点が重要。これらのプロンプトを正しく使用することで、モデルの性能を最大限に引き出せる。 また、医療分野向けに微調整(fine-tuning)も可能。Medical Instruction and Retrieval Dataset(MIRIAD)で微調整したモデル「sentence-transformers/embeddinggemma-300m-medical」は、一般モデルを上回る性能を発揮。NDCG@10スコアで0.8862を記録し、自身のサイズ(268M)で他の大規模モデルを上回る結果を示した。 このモデルの登場により、高性能かつ低リソースな多言語埋め込みが、開発者や企業にとって実用的かつ広範に利用可能になる。Googleは今後も、エッジコンピューティングやプライバシー重視のAI活用を推進する。