Un nouveau cadre AI permet à l'IA d'écrire ses propres outils en Python pendant le raisonnement visuel
Le framework PyVision, développé par une équipe internationale comprenant des chercheurs de l'Institut de l'intelligence artificielle de Shanghai, de l'Université de Rice, de l'Université de Hong Kong, de l'Université nationale de Singapour et de SII, représente une avancée majeure dans le domaine du raisonnement visuel. Conçu pour permettre aux modèles d'intelligence artificielle de générer et d'exécuter des outils en Python adaptés aux tâches visuelles, PyVision permet aux modèles multimodaux de s'adapter dynamiquement et de construire des solutions à partir de zéro. Cela contraste avec les approches précédentes, qui s'appuyaient sur des ensembles d'outils fixes et des traitements linéaires, limitant ainsi leur capacité à s'adapter à des problèmes inédits ou complexes. Les tâches de raisonnement visuel, comme le diagnostic médical, la résolution de problèmes mathématiques visuels, les puzzles symboliques ou les réponses à des questions basées sur des images, nécessitent une combinaison de perception visuelle et de raisonnement logique. Les modèles actuels, bien qu'ayant des capacités de reconnaissance d'objets, manquent souvent de flexibilité pour modifier leurs stratégies ou créer des outils nouveaux. Cela rend difficile leur utilisation dans des domaines exigeant une analyse itérative ou une inférence contextuelle. PyVision résout ce problème en intégrant Python comme langage principal, permettant aux modèles de générer du code à la volée. Ce code est exécuté dans un environnement isolé, et les résultats — qu'ils soient textuels, visuels ou numériques — sont renvoyés au modèle pour l'analyse. Cela permet une réflexion continue et une amélioration itérative des solutions. Le système supporte la persistance entre les interactions, ce qui facilite un raisonnement séquentiel. Il inclut également des mesures de sécurité comme l'isolation des processus et une entrée/sortie structurée, assurant ainsi une performance fiable. Les tests sur des benchmarks montrent des améliorations significatives. Par exemple, GPT-4.1 a vu sa performance sur V* passer de 68,1 % à 75,9 %, tandis que Claude-4.0-Sonnet a gagné 31,1 % sur VLMsAreBlind-mini. Des gains sont également observés sur d'autres tâches, confirmant que PyVision renforce les capacités des modèles de base plutôt que de les remplacer. Cette innovation ouvre la voie à des systèmes d'IA plus intelligents et plus adaptatifs, capables de gérer des défis visuels complexes dans des contextes réels. Elle marque une étape importante vers des modèles agents, capables de penser et d'agir de manière autonome. Le projet, disponible sur GitHub, a reçu un grand intérêt de la part des experts du secteur, qui soulignent son potentiel pour révolutionner le traitement des tâches visuelles dans des domaines comme la médecine, l'analyse d'images ou l'automatisation.