HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 17 jours

Raisonner avec la vidéo : la génération de vidéos comme paradigme prometteur de raisonnement multimodal

Raisonner avec la vidéo : la génération de vidéos comme paradigme prometteur de raisonnement multimodal

Résumé

Le paradigme du « raisonnement à partir de texte » et celui du « raisonnement à partir d’images » améliorent significativement la capacité de raisonnement des grands modèles linguistiques (LLM) et des modèles vision-langage (VLM). Toutefois, ces approches présentent des limites intrinsèques. (1) Les images ne captent qu’un instantané unique, ne permettant pas de représenter des processus dynamiques ou des évolutions continues ; (2) La séparation entre le texte et la vision, considérés comme des modalités distinctes, entrave une compréhension et une génération multimodales unifiées. Pour surmonter ces limites, nous introduisons un nouveau paradigme, le « raisonnement à partir de vidéos », qui exploite des modèles de génération vidéo, tels que Sora-2, afin de relier le raisonnement visuel et le raisonnement textuel dans un cadre temporel unifié. Afin de soutenir cette exploration, nous avons développé le benchmark VideoThinkBench. Ce benchmark comprend deux catégories de tâches : (1) des tâches centrées sur la vision (par exemple, les énigmes d’« Eyeballing ») et (2) des tâches centrées sur le texte (par exemple, des sous-ensembles de GSM8K, MMMU). Notre évaluation établit Sora-2 comme un raisonneur performant. Sur les tâches centrées sur la vision, Sora-2 se situe généralement au niveau des VLM les plus avancés (SOTA), et dépasse même certains VLM sur plusieurs tâches, comme les « Eyeballing Games ». Sur les tâches centrées sur le texte, Sora-2 atteint 92 % de précision sur MATH et 75,53 % sur MMMU. En outre, nous analysons systématiquement les sources de ces capacités. Nous constatons également que la consistance interne (self-consistency) et l’apprentissage in-context permettent d’améliorer les performances de Sora-2. En somme, nos résultats démontrent que le modèle de génération vidéo est un candidat prometteur pour une compréhension et une génération multimodales unifiées, et positionnent le « raisonnement à partir de vidéos » comme un nouveau paradigme unifié de raisonnement multimodal.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonner avec la vidéo : la génération de vidéos comme paradigme prometteur de raisonnement multimodal | Articles de recherche | HyperAI