Test de Réalité Vidéo : Les Vidéos ASMR Générées par l'IA Peuvent-Elles Tromper les VLMs et les Êtres Humains ?
Test de Réalité Vidéo : Les Vidéos ASMR Générées par l'IA Peuvent-Elles Tromper les VLMs et les Êtres Humains ?
Jiaqi Wang Weijia Wu Yi Zhan Rui Zhao Ming Hu James Cheng Wei Liu Philip Torr Kevin Qinghong Lin
Abstract
Les avancées récentes dans la génération vidéo ont produit des contenus très vivants, souvent indiscernables des vidéos réelles, ce qui fait émerger la détection des vidéos générées par IA comme un défi sociétal croissant. Les benchmarks précédents pour la détection des contenus générés par IA (AIGC) évaluent principalement des vidéos sans audio, couvrent des domaines narratifs larges et se concentrent uniquement sur la classification. Il reste toutefois incertain que les modèles de génération vidéo les plus performants soient capables de produire des vidéos immersives associées à un audio, capables de tromper de manière fiable à la fois les humains et les modèles visuels-langagiers (VLM). À cet effet, nous introduisons Video Reality Test, une suite de benchmarks vidéo inspirée des vidéos ASMR, conçue pour évaluer la réalisme perceptif dans des conditions de couplage audio-visuel strict. Cette suite présente les dimensions suivantes : (i) sources vidéo-audio ASMR immersives. Fondées sur des vidéos ASMR réelles soigneusement sélectionnées, cette base vise à capturer des interactions fines entre actions et objets, avec une grande diversité en termes d’objets, d’actions et d’arrière-plans. (ii) Évaluation par revue pairée. Protocole adversarial où les modèles de génération vidéo agissent comme créateurs cherchant à tromper des revueurs, tandis que les VLM jouent le rôle de revueurs chargés d’identifier les contenus falsifiés. Nos résultats expérimentaux montrent que le meilleur modèle créateur, Veo3.1-Fast, parvient même à tromper la majorité des VLM : le meilleur revueur (Gemini 2.5-Pro) atteint une précision de seulement 56 % (aléatoire : 50 %), bien en dessous de celle des experts humains (81,25 %). L’ajout d’un audio améliore la capacité à distinguer le réel du faux, mais des indices superficiels tels que des filigranes peuvent encore fortement induire en erreur les modèles. Ces résultats définissent la frontière actuelle du réalisme dans la génération vidéo et mettent en lumière les limites des VLM en matière de fidélité perceptuelle et de cohérence audio-visuelle. Notre code est disponible à l’adresse suivante : https://github.com/video-reality-test/video-reality-test.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.