HyperAIHyperAI

Command Palette

Search for a command to run...

纳米香蕉赋能提示工程,解锁AI图像生成新精度

Nano Banana,即谷歌发布的Gemini 2.5 Flash Image模型,正成为AI图像生成领域最引人注目的新星。尽管近期大模型发布节奏放缓,但技术演进并未停歇。与传统扩散模型不同,Nano Banana采用自回归架构,以类似ChatGPT的方式逐token生成图像,虽生成速度较慢(约30秒/图),但其在复杂提示理解与精准执行方面表现惊人。 该模型在LMArena上初露锋芒,迅速因“提示工程”能力爆火。用户通过极富创意的复杂提示,如“将一个枫糖浆滴落的头骨煎饼”“让Ugly Sonic与奥巴马握手”“在《纽约时报》头版风格中呈现这一场景”等,均能获得高度符合要求的输出。其强大之处在于对多条件、多步骤、跨模态指令的精准解析,甚至能处理JSON格式的超细粒度角色描述,生成高度符合设定的写实人物。 更令人惊叹的是,Nano Banana能同时处理五条编辑指令,实现局部修改而保持整体一致;能生成代码界面,且在提示中加入“Pulitzer Prize-winning”等风格词后,输出更具专业感;甚至在未提供“图像”一词的情况下,仍能正确生成图像。其32,768 token的上下文窗口,远超CLIP的77或T5的512,使其能处理长篇复杂提示,如完整HTML网页的渲染,尽管细节仍有瑕疵。 然而,该模型并非完美。它在风格迁移方面表现较差,难以将真人照片转化为吉卜力风格;对知识产权缺乏敏感性,可随意生成热门IP角色组合;且在NSFW内容过滤上较为宽松,存在滥用风险。 值得注意的是,Nano Banana的成功源于其底层架构——Gemini 2.5 Flash模型具备强大的文本编码能力,经过大量Markdown、JSON及结构化指令训练,使其能理解复杂规则与意图。谷歌并未公开系统提示,但通过对抗性测试发现其存在提示重写机制,且对“关键词”有特定防御策略。 尽管存在局限,Nano Banana展示了自回归图像模型在提示遵循、逻辑一致性与复杂控制方面的巨大潜力。它不仅是工具,更是提示工程的新范式。作者已开源工具包gemimg,并公开所有提示与代码,旨在打破“AI图像皆模糊泛黄”的误解,推动真实能力的可见与可复现。在AI快速发展的今天,真正理解其能力边界,比盲目崇拜或恐惧更为重要。

相关链接