Test de perception : une référence diagnostique pour les modèles vidéo multimodaux

Nous proposons un nouveau benchmark multimodal vidéo — le Perception Test — destiné à évaluer les capacités de perception et de raisonnement des modèles multimodaux pré-entraînés (tels que Flamingo, SeViLA ou GPT-4). Contrairement aux benchmarks existants qui se concentrent sur des tâches computationnelles (par exemple, classification, détection ou suivi), le Perception Test met l’accent sur des compétences spécifiques (mémoire, abstraction, physique, sémantique) et des types de raisonnement (descriptif, explicatif, prédictif, contre-factuel) à travers les modalités vidéo, audio et texte, offrant ainsi un outil d’évaluation complet et efficace. Ce benchmark évalue les capacités de transfert des modèles pré-entraînés dans des scénarios à zéro-shot, peu-shot ou avec une fine-tuning limitée. À cet effet, le Perception Test introduit 11 600 vidéos du monde réel, d’une durée moyenne de 23 secondes, conçues pour illustrer des situations perceptuellement riches, filmées par environ 100 participants répartis à travers le monde. Ces vidéos sont annotées de manière dense selon six types d’étiquettes (questions à choix multiples et réponses ancrées dans la vidéo, trajectoires d’objets et de points, segments temporels d’actions et de sons), permettant à la fois des évaluations linguistiques et non linguistiques. Les ensembles de fine-tuning et de validation du benchmark sont disponibles publiquement (sous licence CC-BY), ainsi qu’un serveur de défi comprenant un ensemble de test conservé. Les résultats obtenus par des humains, comparés aux performances des meilleurs modèles actuels de question-réponse vidéo, révèlent un écart substantiel (91,4 % contre 46,2 %), indiquant qu’il reste une marge importante d’amélioration dans la compréhension multimodale des vidéos. Les données, le code de base et le serveur de défi sont disponibles à l’adresse suivante : https://github.com/deepmind/perception_test