HyperAI超神经

谷歌近日推出其旗舰AI助手Gemini的重磅更新——Gemini 2.5 Flash Image（代号“nano-banana”），标志着其在AI图像生成与编辑领域迈出关键一步。该模型现已面向所有Gemini用户上线，并通过Gemini API、Google AI Studio及Vertex AI平台向开发者开放，旨在增强图像编辑的精准度与创造性，以应对OpenAI等对手在AI视觉生成领域的强势布局。新模型最突出的能力在于“自然语言驱动的精准图像编辑”。用户只需用简单指令，即可实现对图像中特定区域的修改，如更换衣服颜色、移除人物、调整背景或为黑白照片上色，同时保持人脸、动物等关键细节的高度一致性。相比之下，许多竞品在执行此类操作时常出现面部扭曲或背景错乱的问题。此外，Gemini 2.5 Flash Image支持“多图融合”功能，能将多个图像输入整合为一张协调统一的新图，例如将家具放入真实房间场景中生成逼真渲染图。谷歌强调，该模型具备强大的“世界知识”理解能力，能结合上下文和现实逻辑进行创作。例如，用户可上传手绘草图，模型即能识别并协助完成教学演示或设计任务。同时，它支持“多轮对话式编辑”，允许用户在一次交互中完成多次修改，提升创作效率。尽管功能强大，谷歌仍强化了内容安全机制。所有由该模型生成或编辑的图像将嵌入不可见的SynthID数字水印，并在元数据中标记为AI生成，以应对深度伪造风险。公司明确禁止生成非自愿的亲密图像，这一立场与部分竞品（如Grok）形成对比。在定价方面，Gemini 2.5 Flash Image采用每百万输出token 30美元的计费模式，单张图像约0.039美元，与Gemini 2.5 Flash其他模态保持一致。谷歌还与OpenRouter.ai、fal.ai等平台合作，扩大开发者生态覆盖。尽管Gemini目前月活达4.5亿，仍落后于ChatGPT超7亿的周活跃用户，但此次图像能力的跃升，被视为谷歌缩小差距、吸引创作者与开发者的关键一步。随着AI视觉生成成为科技巨头竞争的核心战场，Gemini 2.5 Flash Image的推出，或将重塑AI内容创作的格局。

Gemini 2.5 Flash Image模型升级，图像生成能力再突破

Related Links