HyperAIHyperAI

Command Palette

Search for a command to run...

Gemini 3 Flash révolutionne la vision par ordinateur avec Agentic Vision : raisonnement visuel et exécution de code pour des réponses fondées sur la preuve visuelle

Gemini 3 Flash introduit une nouvelle fonctionnalité baptisée Agentic Vision, qui révolutionne la compréhension visuelle des modèles d’intelligence artificielle en combinant raisonnement visuel et exécution de code. Contrairement aux modèles traditionnels comme Gemini, qui analysent une image en une seule vue statique et risquent de manquer des détails fins (comme un numéro de série sur un microprocesseur ou un panneau routier lointain), Agentic Vision transforme cette tâche en un processus actif, itératif et orienté action. Ce nouveau paradigme repose sur une boucle Penser, Agir, Observer : le modèle d’abord analyse la requête et l’image initiale pour élaborer un plan en plusieurs étapes ; il génère ensuite du code Python pour manipuler l’image (recadrage, rotation, annotation) ou l’analyser (calculs, dénombrement de zones) ; enfin, l’image modifiée est intégrée à son contexte, permettant une évaluation plus précise avant de produire une réponse fondée sur des preuves visuelles concrètes. Cette capacité, rendue possible par l’exécution de code dans l’API, améliore la qualité des résultats de 5 à 10 % sur la plupart des benchmarks de vision. De nombreuses applications concrètes émergent déjà. Par exemple, PlanCheckSolver.com, une plateforme d’analyse de plans de construction, a augmenté sa précision de 5 % en utilisant Gemini 3 Flash pour analyser itérativement des zones spécifiques d’images haute résolution — comme les contours des toits — en générant du code pour les découper et les examiner séparément. Le modèle ainsi « alimenté » par des images traitées, peut valider la conformité aux codes du bâtiment avec une fiabilité accrue. Agentic Vision permet également une annotation visuelle proactive : au lieu de décrire ce qu’il voit, le modèle peut dessiner des cadres et des étiquettes directement sur l’image. Dans une démonstration du Gemini app, pour compter les doigts d’une main, le modèle utilise du code pour tracer des boîtes entourant chaque doigt et y inscrire un chiffre. Cette « ardoise visuelle » garantit que le raisonnement repose sur une analyse pixel-par-pixel, réduisant les erreurs de comptage. Enfin, Agentic Vision excelle dans les calculs visuels et la génération de graphiques. Face à des tableaux denses, les LLM classiques ont tendance à faire des erreurs ou à « halluciner ». Gemini 3 Flash, lui, extrait les données brutes, exécute du code Python pour les normaliser (par exemple, ajuster les résultats des SOTA à 1,0) et génère un graphique professionnel avec Matplotlib. Ce processus déterministe remplace les estimations probabilistes par des résultats vérifiables. À l’avenir, Google prévoit d’approfondir Agentic Vision en rendant davantage de comportements implicites (comme le zoom ou la rotation) automatiques, sans besoin de prompt explicite. D’autres outils — recherche web, recherche d’images inversée — pourraient être intégrés pour renforcer la compréhension contextuelle. La fonctionnalité devrait également être étendue à d’autres tailles de modèles Gemini. Disponible dès maintenant via l’API Gemini dans Google AI Studio et Vertex AI, ainsi que dans l’application Gemini (en sélectionnant « Thinking »), Agentic Vision s’explore facilement via le Playground d’AI Studio en activant « Exécution de code ». Les développeurs peuvent consulter les documents techniques pour intégrer cette avancée dans leurs projets. Évaluation : Selon des experts du secteur, Agentic Vision marque une étape clé vers des systèmes d’IA véritablement agissants, capables d’interagir avec leur environnement visuel comme un humain le ferait. Google DeepMind, déjà leader dans les modèles d’IA de pointe, confirme son ambition de créer des agents intelligents capables de planifier, agir et apprendre de leurs actions. Cette évolution devrait inspirer de nombreuses innovations dans les domaines de l’ingénierie, de la médecine, de l’analyse de données et de l’automatisation.

Liens associés

Gemini 3 Flash révolutionne la vision par ordinateur avec Agentic Vision : raisonnement visuel et exécution de code pour des réponses fondées sur la preuve visuelle | Articles tendance | HyperAI