HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle

Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle

Résumé

Les progrès récents des grands modèles multimodaux ont permis d’exploiter des outils basés sur les images en combinaison avec l’apprentissage par renforcement afin de résoudre des problèmes visuels. Toutefois, les approches open source existantes présentent souvent des schémas de raisonnement monotones et ne permettent qu’un nombre limité d’interactions, ce qui les rend insuffisantes pour des tâches complexes nécessitant une exploration par essai-erreur. Dans ce travail, nous surmontons cette limitation en élargissant les interactions basées sur des outils, et introduisons Mini-o3, un système capable d’exécuter un raisonnement profond et multi-tours — s’étendant sur des dizaines d’étapes — et atteignant des performances de pointe sur des tâches exigeantes de recherche visuelle. Notre méthode pour reproduire des comportements du type OpenAI o3 repose sur trois composants clés. Premièrement, nous construisons le Visual Probe Dataset, un ensemble de milliers de problèmes visuels complexes conçus pour favoriser le raisonnement exploratoire. Deuxièmement, nous développons un pipeline itératif de collecte de données permettant d’obtenir des trajectoires de départ froid (cold-start) exhibant des schémas de raisonnement variés, incluant la recherche en profondeur, l’essai-erreur et le maintien de but. Troisièmement, nous proposons une stratégie de masquage des tours excédentaires (over-turn masking), qui évite de pénaliser les réponses ayant atteint le nombre maximal de tours lors de l’apprentissage par renforcement, assurant ainsi un équilibre entre efficacité d’entraînement et scalabilité au moment de l’évaluation. Malgré une formation avec une limite supérieure de seulement six tours d’interaction, notre modèle génère des trajectoires qui s’étendent naturellement à des dizaines de tours lors de l’inférence, avec une précision qui augmente avec le nombre de tours. Des expériences étendues démontrent que Mini-o3 produit des schémas de raisonnement riches et des chemins de pensée profonds, permettant efficacement de résoudre des problèmes visuels complexes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mini-o3 : Échelle des schémas de raisonnement et du nombre d’échanges pour la recherche visuelle | Articles de recherche | HyperAI