HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Test de Réalité Vidéo : Les Vidéos ASMR Générées par l'IA Peuvent-Elles Tromper les VLMs et les Êtres Humains ?

Jiaqi Wang Weijia Wu Yi Zhan Rui Zhao Ming Hu James Cheng Wei Liu Philip Torr Kevin Qinghong Lin

Abstract

Les avancées récentes dans la génération vidéo ont produit des contenus très vivants, souvent indiscernables des vidéos réelles, ce qui fait émerger la détection des vidéos générées par IA comme un défi sociétal croissant. Les benchmarks précédents pour la détection des contenus générés par IA (AIGC) évaluent principalement des vidéos sans audio, couvrent des domaines narratifs larges et se concentrent uniquement sur la classification. Il reste toutefois incertain que les modèles de génération vidéo les plus performants soient capables de produire des vidéos immersives associées à un audio, capables de tromper de manière fiable à la fois les humains et les modèles visuels-langagiers (VLM). À cet effet, nous introduisons Video Reality Test, une suite de benchmarks vidéo inspirée des vidéos ASMR, conçue pour évaluer la réalisme perceptif dans des conditions de couplage audio-visuel strict. Cette suite présente les dimensions suivantes : (i) sources vidéo-audio ASMR immersives. Fondées sur des vidéos ASMR réelles soigneusement sélectionnées, cette base vise à capturer des interactions fines entre actions et objets, avec une grande diversité en termes d’objets, d’actions et d’arrière-plans. (ii) Évaluation par revue pairée. Protocole adversarial où les modèles de génération vidéo agissent comme créateurs cherchant à tromper des revueurs, tandis que les VLM jouent le rôle de revueurs chargés d’identifier les contenus falsifiés. Nos résultats expérimentaux montrent que le meilleur modèle créateur, Veo3.1-Fast, parvient même à tromper la majorité des VLM : le meilleur revueur (Gemini 2.5-Pro) atteint une précision de seulement 56 % (aléatoire : 50 %), bien en dessous de celle des experts humains (81,25 %). L’ajout d’un audio améliore la capacité à distinguer le réel du faux, mais des indices superficiels tels que des filigranes peuvent encore fortement induire en erreur les modèles. Ces résultats définissent la frontière actuelle du réalisme dans la génération vidéo et mettent en lumière les limites des VLM en matière de fidélité perceptuelle et de cohérence audio-visuelle. Notre code est disponible à l’adresse suivante : https://github.com/video-reality-test/video-reality-test.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Test de Réalité Vidéo : Les Vidéos ASMR Générées par l'IA Peuvent-Elles Tromper les VLMs et les Êtres Humains ? | Papers | HyperAI