Command Palette
Search for a command to run...
Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle
Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

Résumé
Les progrès récents des grands modèles multimodaux ont permis d’exploiter des outils basés sur les images en combinaison avec l’apprentissage par renforcement afin de résoudre des problèmes visuels. Toutefois, les approches open source existantes présentent souvent des schémas de raisonnement monotones et ne permettent qu’un nombre limité d’interactions, ce qui les rend insuffisantes pour des tâches complexes nécessitant une exploration par essai-erreur. Dans ce travail, nous surmontons cette limitation en élargissant les interactions basées sur des outils, et introduisons Mini-o3, un système capable d’exécuter un raisonnement profond et multi-tours — s’étendant sur des dizaines d’étapes — et atteignant des performances de pointe sur des tâches exigeantes de recherche visuelle. Notre méthode pour reproduire des comportements du type OpenAI o3 repose sur trois composants clés. Premièrement, nous construisons le Visual Probe Dataset, un ensemble de milliers de problèmes visuels complexes conçus pour favoriser le raisonnement exploratoire. Deuxièmement, nous développons un pipeline itératif de collecte de données permettant d’obtenir des trajectoires de départ froid (cold-start) exhibant des schémas de raisonnement variés, incluant la recherche en profondeur, l’essai-erreur et le maintien de but. Troisièmement, nous proposons une stratégie de masquage des tours excédentaires (over-turn masking), qui évite de pénaliser les réponses ayant atteint le nombre maximal de tours lors de l’apprentissage par renforcement, assurant ainsi un équilibre entre efficacité d’entraînement et scalabilité au moment de l’évaluation. Malgré une formation avec une limite supérieure de seulement six tours d’interaction, notre modèle génère des trajectoires qui s’étendent naturellement à des dizaines de tours lors de l’inférence, avec une précision qui augmente avec le nombre de tours. Des expériences étendues démontrent que Mini-o3 produit des schémas de raisonnement riches et des chemins de pensée profonds, permettant efficacement de résoudre des problèmes visuels complexes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.