HyperAIHyperAI
Back to Headlines

Gemini 2.5 Flash Image : une nouvelle génération d'images IA révolutionnaire

il y a 15 heures

Google a lancé aujourd’hui une mise à jour majeure de son modèle d’image générative intégré à Gemini, baptisée Gemini 2.5 Flash Image, disponible dès maintenant dans l’application Gemini, Google AI Studio et Vertex AI. Cette évolution marque une avancée significative dans la génération et l’édition d’images par intelligence artificielle, en répondant à un des principaux défis du secteur : la cohérence des personnages et des objets à travers plusieurs générations ou modifications. Contrairement à certains concurrents, dont les outils peuvent déformer les visages ou altérer les arrière-plans lors d’éditions simples, le nouveau modèle permet des ajustements précis grâce à des instructions en langage naturel, comme changer la couleur d’un vêtement, flouter un fond ou ajouter de la couleur à une photo en noir et blanc. L’un des atouts clés de cette mise à jour est la capacité à conserver l’apparence d’un personnage ou d’un objet à travers diverses poses, éclairages et environnements, ou même à l’appliquer à des styles ou surfaces différents. Google affirme que le modèle intègre une meilleure compréhension du monde réel, permettant de générer des scènes complexes ou de prédire des séquences logiques. Il peut aussi combiner plusieurs éléments — comme une photo de canapé, une pièce d’intérieur et une palette de couleurs — pour produire une image cohérente et réaliste. Le modèle s’inscrit dans une course accélérée entre géants de la tech pour dominer le marché des outils d’IA générative. L’arrivée de l’image native dans GPT-4o d’OpenAI, qui a fait exploser l’usage de ChatGPT avec des memes Studio Ghibli, a poussé Google à réagir. Avec plus de 700 millions d’utilisateurs hebdomadaires pour ChatGPT, contre 450 millions d’utilisateurs mensuels pour Gemini, la pression est forte. Le nouveau modèle a déjà attiré l’attention sur LMArena, où il circulait anonymement sous le nom de « nano-banana », avant que Google ne révèle son identité. Pour tirer le meilleur parti de ce nouvel outil, Google recommande de structurer ses prompts autour de six éléments : le sujet, la composition, l’action, le lieu, le style et des instructions d’édition précises. Par exemple, « un robot barista stoïque aux optiques bleues, en gros plan, en train de préparer un café dans un café futuriste sur Mars, style animation 3D » permet d’obtenir des résultats très ciblés. Des techniques comme la préservation de l’apparence d’un personnage ou la fusion de photos tout en conservant les traits sont désormais possibles avec une fluidité remarquable. Le modèle est également conçu pour des usages pratiques : création de maquettes produits, badges d’employés, visuels immobiliers ou projets de décoration intérieure. Google a déjà mis en place des applications modèles sur Google AI Studio pour faciliter l’adoption par les développeurs. En parallèle, des mesures de sécurité sont en place : interdiction de contenu non consensuel, marquage visuel et métadonnées pour identifier les images générées, afin de lutter contre les deepfakes. En somme, Gemini 2.5 Flash Image représente une avancée technologique majeure, combinant qualité visuelle, contrôle fine et compréhension contextuelle. Si Google espère ainsi rattraper son retard face à OpenAI, cette mise à jour montre que l’IA générative s’affine rapidement, offrant désormais des outils puissants, précis et responsables pour les utilisateurs comme les professionnels.

Related Links

Gemini 2.5 Flash Image : une nouvelle génération d'images IA révolutionnaire | Gros titres | HyperAI