Google 发布首款原生多模态嵌入模型 Gemini Embedding 2
谷歌今日正式推出 Gemini Embedding 2,这是其首款基于 Gemini 架构的原生多模态嵌入模型,现已通过 Gemini API 和 Vertex AI 进入公开预览阶段。该模型突破了以往仅处理单一文本的局限,能够直接将文本、图像、视频、音频及文档映射到统一的嵌入空间,并准确捕捉一百多种语言的语义意图。 这一技术升级极大简化了数据处理流程,显著提升了检索增强生成(RAG)、语义搜索、情感分析及数据聚类等下游任务的性能。Gemini Embedding 2 的核心优势在于其原生理解混合输入的能力。它不再按顺序逐一处理模态,而是能同时接收如“图像加文本”的复杂请求。这种对交错输入的支持,使模型能够精准捕捉不同媒体类型之间微妙且复杂的关联,从而实现对现实世界多源数据的更深层理解。相比旧有方案,新模型通过统一的语义空间消除了跨模态数据的转换瓶颈,为开发者构建更智能、更高效的 AI 应用提供了坚实基础。
