HyperAIHyperAI

Command Palette

Search for a command to run...

Console

视频现实性测试:AI生成的ASMR视频能否欺骗VLMs和人类?

Jiaqi Wang Weijia Wu Yi Zhan Rui Zhao Ming Hu James Cheng Wei Liu Philip Torr Kevin Qinghong Lin

Abstract

近期视频生成技术的快速发展,已能够生成在视觉上极为逼真、甚至与真实视频难以区分的内容,由此催生了AI生成视频检测这一新兴的社会性挑战。现有的AIGC(AI生成内容)检测基准大多仅评估无音频的视频,覆盖范围广但缺乏针对性,且仅关注分类任务。然而,当前最先进的视频生成模型是否能够生成在音画高度耦合下具有沉浸感、并能可靠欺骗人类与视觉语言模型(VLMs)的视频,仍不明确。为此,我们提出Video Reality Test——一个基于ASMR(自主感官刺激)素材构建的视频基准测试套件,旨在评估在强音画耦合条件下的感知真实性。该基准涵盖以下核心维度:(i) 沉浸式ASMR音视频源:基于精心筛选的真实ASMR视频构建,聚焦于精细的动作-物体交互,涵盖多样化的物体类型、动作行为及背景场景,具备高度的细节真实感;(ii) 同行评审评估机制:采用对抗性“创作者-评审者”协议,其中视频生成模型扮演“创作者”角色,目标是生成足以欺骗评审者的视频;而VLMs则作为“评审者”,任务是识别内容的虚假性。实验结果表明:当前表现最优的生成模型Veo3.1-Fast,甚至能欺骗多数VLMs——最强的评审模型(Gemini 2.5-Pro)的识别准确率仅为56%(随机猜测为50%),远低于人类专家水平(81.25%)。尽管加入音频有助于提升真假辨别能力,但诸如水印等表面线索仍可能显著误导模型判断。上述发现揭示了当前视频生成技术在真实感方面的边界,同时暴露了现有VLMs在感知保真度与音画一致性方面的显著局限性。本研究代码已开源,地址为:https://github.com/video-reality-test/video-reality-test


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供