HyperAIHyperAI
Back to Headlines

Gemini 2.5 Flash Image : une mise à jour révolutionnaire pour l'IA visuelle

il y a 11 heures

Google lance une mise à jour majeure de son chatbot Gemini avec l’introduction de Gemini 2.5 Flash Image, un nouveau modèle d’image générative basé sur l’intelligence artificielle, disponible dès mardi pour tous les utilisateurs de l’application Gemini, ainsi que pour les développeurs via l’API Gemini, Google AI Studio et Vertex AI. Ce modèle, surnommé « nano-banana » dans les évaluations publiques, se distingue par sa capacité à effectuer des modifications précises d’images à partir de commandes en langage naturel, tout en préservant la cohérence des visages, des animaux et des détails clés — une faiblesse fréquente chez les concurrents comme ChatGPT ou Grok d’xAI. Le modèle permet des éditions ciblées : changer la couleur d’un vêtement, effacer une personne d’une photo, modifier une pose, ou ajouter de la couleur à une image en noir et blanc. Il excelle également dans la fusion d’images, permettant de combiner plusieurs photos — par exemple un chien et une personne — tout en conservant leurs traits distinctifs. Grâce à une connaissance approfondie du monde réel intégrée par le modèle, il peut interpréter des demandes complexes, comme créer un canapé dans un salon selon une palette de couleurs donnée ou transformer un croquis manuscrit en tutoriel interactif. Google insiste sur l’aspect créatif et pratique de l’outil, conçu pour des usages comme la visualisation de projets de décoration intérieure ou de jardin. Il supporte également des conversations multi-tours, permettant aux utilisateurs d’affiner leurs demandes étape par étape. Pour les développeurs, Google AI Studio propose désormais des modèles préconfigurés et des fonctionnalités de « build mode » pour créer rapidement des applications personnalisées, avec des exemples comme un éditeur d’images ou un outil de création de maquettes produits. Prixé à 30 dollars par million de jetons de sortie (soit 0,039 dollar par image), le modèle est en phase de prévisualisation, avec une version stable prévue prochainement. Google collabore avec OpenRouter.ai et fal.ai pour étendre son accès à plus de 3 millions de développeurs. Toutes les images générées ou modifiées portent une empreinte numérique invisible (SynthID) et des métadonnées pour identifier leur origine IA, renforçant les mesures de sécurité. Cette mise à jour s’inscrit dans la course au leadership en IA visuelle, où OpenAI a fortement boosté l’adoption de ChatGPT avec son générateur d’images intégré, tandis que Meta s’associe à Midjourney et Black Forest Labs domine les benchmarks. Google, qui comptait 450 millions d’utilisateurs mensuels pour Gemini en juillet, cherche à rattraper son retard face à ChatGPT, qui dépasse 700 millions d’utilisateurs hebdomadaires. Malgré des incidents passés liés à des images historiquement inexactes, Google affirme avoir trouvé un meilleur équilibre entre liberté créative et contrôle, interdisant notamment la génération d’images intimes non consensuelles. Le modèle représente une avancée significative dans la qualité visuelle et la compréhension des instructions, selon Nicole Brichtova, responsable des modèles de génération visuelle chez Google DeepMind.

Related Links