Command Palette
Search for a command to run...
VRBench : Un benchmark pour le raisonnement en plusieurs étapes dans les vidéos narratives longues
VRBench : Un benchmark pour le raisonnement en plusieurs étapes dans les vidéos narratives longues
Résumé
Nous présentons VRBench, la première base de référence vidéo narrative à long terme conçue pour évaluer les capacités de raisonnement en plusieurs étapes des grands modèles, abordant les limitations des évaluations existantes qui négligent le raisonnement temporel et la validité procédurale. Elle comprend 1 010 vidéos longues (avec une durée moyenne de 1,6 heure), accompagnées de 9 468 paires de questions-réponses multistep étiquetées par des humains et de 30 292 étapes de raisonnement avec horodatage. Ces vidéos sont sélectionnées grâce à un processus de filtrage en plusieurs étapes, incluant une revue inter-évaluateurs d'experts pour prioriser la cohérence du scénario. Nous développons un cadre collaboratif homme-IA qui génère des chaînes de raisonnement cohérentes, chacune nécessitant plusieurs étapes temporairement ancrées, couvrant sept types (par exemple, l'attribution d'événements, l'inférence implicite). VRBench conçoit une pipeline d'évaluation multiphase qui évalue les modèles tant au niveau des résultats que du processus. Outre les QCM pour les résultats finaux, nous proposons une métrique de notation guidée par les LLMs au niveau du progrès afin d'évaluer la qualité de la chaîne de raisonnement selon plusieurs dimensions de manière exhaustive. À travers des évaluations approfondies de 12 LLMs et 16 VLMs sur VRBench, nous menons une analyse détaillée et fournissons des insights précieux qui font progresser le domaine du raisonnement en plusieurs étapes.