HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Video Reality Test: AIが生成したASMR動画はVLMおよび人間を欺くことができるか?

Jiaqi Wang Weijia Wu Yi Zhan Rui Zhao Ming Hu James Cheng Wei Liu Philip Torr Kevin Qinghong Lin

Abstract

動画生成技術の最近の進展により、現実の動画と区別がつかないほど生々しいコンテンツが生成されるようになり、AI生成動画の検出は新たな社会的課題として浮上している。これまでのAIGC(AI生成コンテンツ)検出ベンチマークは、主に音声を含まない動画を評価対象としており、広範な物語的領域を対象とし、分類タスクに特化している。しかし、最先端の動画生成モデルが、人間やVLM(視覚言語モデル)を確実に欺くほどの没入感を持ち、音声と連動した高精細な動画を生成できるかどうかは、依然として不明である。この課題に応じて、本研究では「Video Reality Test(動画現実性テスト)」を提案する。これは、音声・視覚の緊密な連携下での知覚的現実性を検証するためのASMR(自主的感覚統合性反応)を素材とした動画ベンチマークセットであり、以下の3つの特徴を有する:(i) 沈浸型ASMR動画・音声ソース。精査された実際のASMR動画を基に構築され、物体・行動・背景の多様性を備えた、細粒度な行動-物体間相互作用を対象としている。(ii) ピアレビュー評価。生成モデルが「作成者」として、レビュアーを欺くことを目的とし、VLMが「レビュアー」として偽物を検出することを目的とする、敵対的作成者-レビュアー方式の評価プロトコル。実験の結果から以下の知見が得られた:最良の生成モデルであるVeo3.1-Fastですら、多くのVLMを欺くことが確認された。最も強力なレビュアー(Gemini 2.5-Pro)でも正解率は56%にとどまり(ランダム判定の50%をわずかに上回る)、人間の専門家(81.25%)の性能には遠く及ばない。音声の付加は偽物判別能力を向上させるが、水紋などの表面的な手がかりが依然としてモデルを誤導する要因となる。これらの結果は、現在の動画生成技術の現実性の限界を明確にし、VLMの知覚的忠実性および音声・視覚の整合性に関する限界を露呈した。本研究のコードは、https://github.com/video-reality-test/video-reality-test にて公開されている。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています