Nano Banana : le modèle d’image générative autoregressif qui domine la précision des prompts
Nano Banana, le modèle de génération d’images autoregressif développé par Google et intégré à Gemini 2.5 Flash, s’impose comme une avancée majeure en matière d’adhérence aux prompts, dépassant largement les modèles courants comme Stable Diffusion ou même ChatGPT. Apparu en août 2025 sur LMArena sous le nom de code « nano-banana », ce modèle a rapidement gagné en popularité, devenant le pilier de l’application Gemini, qui a gravi les classements des apps mobiles. Bien que son nom soit désormais populaire, son véritable nom technique reste Gemini 2.5 Flash Image — un modèle autoregressif qui génère 1 290 tokens par image, contrairement aux modèles diffusion basés sur des processus itératifs plus rapides mais moins précis dans l’interprétation des instructions complexes. Ce qui distingue Nano Banana, c’est sa capacité exceptionnelle à suivre des prompts extrêmement précis, même lorsqu’ils sont absurdes ou hautement nuancés. Par exemple, une demande comme « un crâne en pancake avec des myrtilles et du sirop d’érable qui coule logiquement » produit une image fidèle aux spécifications : forme du crâne, présence des myrtilles, traînées de sirop cohérentes, malgré quelques artefacts mineurs. Cette précision s’étend à l’édition d’images : en fournissant simultanément cinq modifications (suppression des myrtilles, ajout d’une garniture menthe, ajustement du sirop sur une assiette), Nano Banana applique chaque changement avec une précision remarquable, sans altérer le reste de la scène. Un test particulièrement convaincant concerne la création d’un personnage fictif, « Ugly Sonic », jamais présent dans les jeux vidéo, mais bien connu des amateurs de culture internet. En fournissant deux images du personnage et une instruction précise — « Barack Obama serre la main à Ugly Sonic » — le modèle réussit à générer une scène cohérente, malgré les défis de cohérence visuelle et de style. L’ajout de termes comme « photo couverture Pulitzer pour The New York Times » améliore encore la composition, tandis que la directive « ne pas inclure de texte ni de filigrane » permet d’éliminer les éléments superflus. Même avec dix-sept images d’Ugly Sonic comme référence, le résultat reste cohérent, montrant une capacité d’interprétation contextuelle supérieure. La force de Nano Banana réside dans son encodage de texte avancé, hérité de Gemini 2.5 Flash, qui a été entraîné sur de vastes corpus de Markdown, JSON et code, permettant une compréhension fine des instructions structurées. Contrairement à CLIP (77 tokens) ou T5 (512 tokens), son contexte de 32 768 tokens permet de traiter des prompts complexes, comme des descriptions JSON détaillées d’un personnage hybride (paladin, pirate, barista Starbucks), où chaque détail — couleur du doublet, taille des bottes, position des mains — est respecté avec une précision remarquable. Il peut aussi générer des fragments de code Python avec une mise en forme cohérente, même si les highlights syntaxiques sont parfois approximatifs. Toutefois, Nano Banana présente des limites. Il échoue lamentablement à réaliser des transferts de style, comme « me transformer en Studio Ghibli », contrairement aux modèles spécialisés dans ce domaine. Il est également peu restrictif en matière de propriété intellectuelle : il génère sans hésitation des personnages emblématiques (Optimus Prime, Sonic, etc.) dans des scènes mêlées, sans refus, ce qui soulève des questions juridiques. De même, sa modération de contenu NSFW est faible, permettant des générations inappropriées avec des prompts ciblés. En somme, Nano Banana n’est pas un simple outil de génération d’images, mais un système d’ingénierie de prompt de pointe, capable de traduire des instructions complexes, structurées, parfois absurdes, en visuels précis. Son potentiel est immense, notamment pour les applications nécessitant une fidélité extrême aux consignes, mais il exige une maîtrise fine des techniques d’ingénierie de prompt. Google, en le rendant accessible via l’API Gemini et via des outils comme gemimg, ouvre la voie à une nouvelle ère de création visuelle, où la précision du prompt devient le véritable levier de contrôle.
