HyperAIHyperAI

Command Palette

Search for a command to run...

AV-Lip-Sync+: AV-HuBERTを活用したマルチモーダル不整合を利用したビデオディープフェイク検出

Sahibzada Adil Shahzad Ammarah Hashmi Yan-Tsung Peng Yu Tsao, Senior Member, IEEE Hsin-Min Wang, Senior Member, IEEE

概要

多モーダル操作(オーディオ-ビジュアルディープフェイクとも呼ばれる)は、単一モーダルのディープフェイク検出器がマルチメディアコンテンツにおける偽造を検出することを困難にします。虚偽のプロパガンダやフェイクニュースの拡散を防ぐためには、迅速な検出が不可欠です。視覚または音声のいずれかのモーダルに生じた損傷は、両方の情報を同時に活用できる多モーダルモデルを通じてのみ発見できます。従来の手法では、主に単一モーダルのビデオ鑑識が採用され、監督付き事前学習が偽造検出に使用されていました。本研究では、音声と視覚モーダル間の一貫性を活用して多モーダルビデオ偽造検出を行う新しい方法を提案します。この方法は、トランスフォーマーに基づく自己監督学習(Self-Supervised Learning: SSL)特徴抽出器であるAV-HuBERTモデルを使用し、視覚と音響特徴を抽出します。また、多スケールの一時的な畳み込みニューラルネットワークを使用して、音声と視覚モーダル間の一時的な相関関係を捉えます。AV-HuBERTは唇領域からの視覚特徴のみを抽出するため、顔面特徴を活用し、ディープフェイク生成過程で生じる空間的および時間的アーティファクトを捉えるために別のトランスフォーマーに基づくビデオモデルも採用しています。実験結果は、当社のモデルが既存のすべてのモデルを上回り、FakeAVCelebおよびDeepfakeTIMITデータセットにおいて新たな最先端性能を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています