Back to Headlines

Gemini 2.5 Flash Image模型升级,图像生成能力再突破

11 小时前

谷歌近日推出其旗舰AI助手Gemini的重磅更新——Gemini 2.5 Flash Image(代号“nano-banana”),标志着其在AI图像生成与编辑领域迈出关键一步。该模型现已面向所有Gemini用户上线,并通过Gemini API、Google AI Studio及Vertex AI平台向开发者开放,旨在增强图像编辑的精准度与创造性,以应对OpenAI等对手在AI视觉生成领域的强势布局。 新模型最突出的能力在于“自然语言驱动的精准图像编辑”。用户只需用简单指令,即可实现对图像中特定区域的修改,如更换衣服颜色、移除人物、调整背景或为黑白照片上色,同时保持人脸、动物等关键细节的高度一致性。相比之下,许多竞品在执行此类操作时常出现面部扭曲或背景错乱的问题。此外,Gemini 2.5 Flash Image支持“多图融合”功能,能将多个图像输入整合为一张协调统一的新图,例如将家具放入真实房间场景中生成逼真渲染图。 谷歌强调,该模型具备强大的“世界知识”理解能力,能结合上下文和现实逻辑进行创作。例如,用户可上传手绘草图,模型即能识别并协助完成教学演示或设计任务。同时,它支持“多轮对话式编辑”,允许用户在一次交互中完成多次修改,提升创作效率。 尽管功能强大,谷歌仍强化了内容安全机制。所有由该模型生成或编辑的图像将嵌入不可见的SynthID数字水印,并在元数据中标记为AI生成,以应对深度伪造风险。公司明确禁止生成非自愿的亲密图像,这一立场与部分竞品(如Grok)形成对比。 在定价方面,Gemini 2.5 Flash Image采用每百万输出token 30美元的计费模式,单张图像约0.039美元,与Gemini 2.5 Flash其他模态保持一致。谷歌还与OpenRouter.ai、fal.ai等平台合作,扩大开发者生态覆盖。 尽管Gemini目前月活达4.5亿,仍落后于ChatGPT超7亿的周活跃用户,但此次图像能力的跃升,被视为谷歌缩小差距、吸引创作者与开发者的关键一步。随着AI视觉生成成为科技巨头竞争的核心战场,Gemini 2.5 Flash Image的推出,或将重塑AI内容创作的格局。

Related Links