HyperAIHyperAI

Command Palette

Search for a command to run...

Ego-R1 : Chaîne de pensée outil pour la raisonnement sur les vidéos égocentriques ultra-longues

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Résumé

Nous présentons Ego-R1, un cadre novateur pour le raisonnement sur des vidéos égocentriques ultra-longues (c'est-à-dire, sur plusieurs jours et semaines), qui utilise un processus structuré de Chaîne de Pensée par Outils (CoTT) orchestré par un Agent Ego-R1 formé par apprentissage par renforcement (RL). Inspiré des stratégies de résolution de problèmes humaines, la CoTT décompose le raisonnement complexe en étapes modulaires, avec l'agent RL invoquant des outils spécifiques, un par étape, pour répondre itérativement et collaborativement à des sous-questions traitant des tâches telles que la recherche temporelle et la compréhension multi-modale. Nous concevons un paradigme d'apprentissage en deux phases impliquant l'affinage supervisé (SFT) d'un modèle linguistique préformé à l'aide de données CoTT et l'RL pour permettre à notre agent de proposer dynamiquement des outils étape par étape pour le raisonnement à long terme. Pour faciliter l'entraînement, nous avons construit un ensemble de données appelé Ego-R1 Data, composé d'Ego-CoTT-25K pour l'SFT et d'Ego-QA-4.4K pour l'RL. De plus, notre agent Ego-R1 est évalué sur un nouveau benchmark de questions-réponses sur des vidéos hebdomadaires, Ego-R1 Bench, qui contient des paires Q&R vérifiées par des humains provenant de sources hybrides. Des résultats exhaustifs montrent que le raisonnement dynamique augmenté par les outils mis en œuvre par notre Agent Ego-R1 peut efficacement relever les défis uniques liés à la compréhension des vidéos égocentriques ultra-longues, en étendant considérablement la couverture temporelle de quelques heures à une semaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp