HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Video Reality Test: Können KI-generierte ASMR-Videos VLMs und Menschen täuschen?

Jiaqi Wang Weijia Wu Yi Zhan Rui Zhao Ming Hu James Cheng Wei Liu Philip Torr Kevin Qinghong Lin

Abstract

Neuere Fortschritte in der Videogenerierung haben lebendige Inhalte hervorgebracht, die oft von echten Videos kaum zu unterscheiden sind, was die Erkennung von KI-generierten Videos zu einer wachsenden gesellschaftlichen Herausforderung macht. Bisherige Benchmark-Datenbanken zur Erkennung von KI-generiertem Inhalt (AIGC) bewerten meist Videos ohne Ton, zielen auf breite narrative Domänen ab und konzentrieren sich ausschließlich auf die Klassifikation. Es bleibt jedoch unklar, ob aktuelle State-of-the-Art-Modellen zur Videogenerierung immersive, tonverknüpfte Videos erzeugen können, die Menschen und visuell-sprachliche Modelle (VLMs) zuverlässig täuschen. Um dies zu untersuchen, stellen wir den Video Reality Test vor – eine auf ASMR-Daten basierende Benchmark-Suite zur Bewertung der perceptuellen Realität unter eng gekoppelten Audio-Visual-Verhältnissen – mit folgenden Merkmalen:(i) Immersionssichere ASMR-Quellen für Video und Ton: Auf sorgfältig ausgewählten echten ASMR-Videos aufbauend, zielt die Benchmark auf fein abgestimmte Interaktionen zwischen Handlungen und Objekten ab und bietet Vielfalt hinsichtlich Objekte, Aktionen und Hintergründe.(ii) Peer-Review-Evaluation: Ein adversariales Ersteller-Reviewer-Protokoll, bei dem Videogenerationsmodelle als Ersteller agieren, die darauf abzielen, Reviewer zu täuschen, während VLMs als Reviewer fungieren, um Fälschungen zu erkennen. Unsere experimentellen Ergebnisse zeigen: Der beste Ersteller (Veo3.1-Fast) täuscht sogar die meisten VLMs: Der leistungsstärkste Reviewer (Gemini 2.5-Pro) erreicht lediglich eine Genauigkeit von 56 % (Zufallswert: 50 %), weit unterhalb der Leistung menschlicher Experten (81,25 %). Der Ton verbessert die Unterscheidung zwischen echt und gefälscht, doch oberflächliche Hinweise wie Wasserzeichen können Modelle weiterhin erheblich täuschen. Diese Erkenntnisse skizzieren die aktuelle Grenze der Realitätsnähe in der Videogenerierung und offenbaren die Grenzen von VLMs hinsichtlich perceptueller Treue und audio-visueller Konsistenz. Unser Quellcode ist unter https://github.com/video-reality-test/video-reality-test verfügbar.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Video Reality Test: Können KI-generierte ASMR-Videos VLMs und Menschen täuschen? | Papers | HyperAI