谷歌全新推出EmbeddingGemma:高效嵌入模型引领AI新潮流
谷歌今日发布全新轻量级多语言嵌入模型 EmbeddingGemma,专为设备端高效运行设计。该模型仅含3080万参数,上下文窗口达2048 tokens,量化后内存占用低于200MB,支持超过100种语言,在MTEB多语言基准测试中,是参数量低于5亿的文本嵌入模型中表现最佳者。 EmbeddingGemma基于Gemma3架构改造,采用双向注意力机制(非因果注意力),使其成为编码器模型,更适用于信息检索等任务。模型通过均值池化将token嵌入转换为文本嵌入,并经两层全连接层输出768维向量。其训练采用Matryoshka表示学习(MRL),支持将嵌入维度动态压缩至512、256或128,显著降低存储与计算成本,同时保持高性能。 该模型基于约3200亿token的多语言语料训练,涵盖公开网页、代码文档与合成任务数据,并经过严格过滤,排除儿童性虐待内容、敏感信息及低质内容。 在实际应用方面,EmbeddingGemma已无缝集成至Sentence Transformers、LangChain、LlamaIndex、Haystack、txtai、Transformers.js、Text Embedding Inference(TEI)和ONNX Runtime等多个主流框架,支持本地浏览器运行、云端部署及边缘设备使用。 开发者可通过指定特定任务提示(如query: "task: search result | query: ")来优化性能。例如,在医学问答场景中,模型经MIRIAD数据集微调后,形成sentence-transformers/embeddinggemma-300m-medical,在NDCG@10指标上达到0.8862,超越多个参数更大的通用模型,展现出强大的领域适应能力。 训练过程在RTX 3090显卡上耗时约5.5小时,采用Cached Multiple Negatives Ranking Loss损失函数与NO_DUPLICATES批采样策略,确保高效训练与稳定收敛。 EmbeddingGemma的发布标志着谷歌在轻量化、高性能、多语言嵌入模型领域的重大进展,为移动应用、本地AI代理、RAG系统等场景提供了强大而高效的解决方案。