Ego-R1 : Chaîne de pensée outil pour la raisonnement sur les vidéos égocentriques ultra-longues

Nous présentons Ego-R1, un cadre novateur pour le raisonnement sur des vidéos égocentriques ultra-longues (c'est-à-dire, sur plusieurs jours et semaines), qui utilise un processus structuré de Chaîne de Pensée par Outils (CoTT) orchestré par un Agent Ego-R1 formé par apprentissage par renforcement (RL). Inspiré des stratégies de résolution de problèmes humaines, la CoTT décompose le raisonnement complexe en étapes modulaires, avec l'agent RL invoquant des outils spécifiques, un par étape, pour répondre itérativement et collaborativement à des sous-questions traitant des tâches telles que la recherche temporelle et la compréhension multi-modale. Nous concevons un paradigme d'apprentissage en deux phases impliquant l'affinage supervisé (SFT) d'un modèle linguistique préformé à l'aide de données CoTT et l'RL pour permettre à notre agent de proposer dynamiquement des outils étape par étape pour le raisonnement à long terme. Pour faciliter l'entraînement, nous avons construit un ensemble de données appelé Ego-R1 Data, composé d'Ego-CoTT-25K pour l'SFT et d'Ego-QA-4.4K pour l'RL. De plus, notre agent Ego-R1 est évalué sur un nouveau benchmark de questions-réponses sur des vidéos hebdomadaires, Ego-R1 Bench, qui contient des paires Q&R vérifiées par des humains provenant de sources hybrides. Des résultats exhaustifs montrent que le raisonnement dynamique augmenté par les outils mis en œuvre par notre Agent Ego-R1 peut efficacement relever les défis uniques liés à la compréhension des vidéos égocentriques ultra-longues, en étendant considérablement la couverture temporelle de quelques heures à une semaine.