Command Palette
Search for a command to run...
REVISEUR : Au-delà de la réflexion textuelle, vers une raisonnement introspectif multimodal dans la compréhension des vidéos longues
Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

Résumé
Les mécanismes de réflexion auto-orientée fondés uniquement sur des processus de réflexion textuels se montrent performants dans la plupart des tâches multimodales. Toutefois, lorsqu’ils sont directement appliqués à des scénarios d’analyse de vidéos longues, ils présentent des limites évidentes. Ces limites s’expliquent fondamentalement par deux facteurs : (1) l’analyse de vidéos longues implique des entrées visuelles plus riches et plus dynamiques, ce qui rend insuffisant un processus de réflexion se limitant à l’information textuelle, nécessitant ainsi un processus de réflexion complémentaire spécifiquement orienté vers les données visuelles ; (2) les mécanismes de réflexion exclusivement textuels manquent de capacités d’interaction intermodale, empêchant ainsi une intégration complète des informations visuelles durant le processus de réflexion. Inspirés par ces constatations, nous proposons REVISOR (REflective VIsual Segment Oriented Reasoning), un cadre novateur pour une réflexion multimodale augmentée par des outils. REVISOR permet aux modèles linguistiques multimodaux (MLLMs) de construire collectivement des processus d’auto-réflexion à travers les modalités textuelle et visuelle, améliorant ainsi significativement leur capacité de raisonnement dans les tâches d’analyse de vidéos longues. Afin de garantir que REVISOR puisse apprendre à examiner avec précision les segments vidéo particulièrement pertinents par rapport à la question durant l’apprentissage par renforcement, nous avons conçu le mécanisme de récompense déconnectée à attribution double (DADR). Intégré à la stratégie d’entraînement GRPO, ce mécanisme impose une alignement causal entre le raisonnement du modèle et les éléments vidéo sélectionnés. Notamment, le cadre REVISOR améliore de manière significative la capacité des MLLMs à comprendre les vidéos longues sans nécessiter de fine-tuning supervisé supplémentaire ni de modèles externes, atteignant des résultats remarquables sur quatre benchmarks, notamment VideoMME, LongVideoBench, MLVU et LVBench.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.