概要

多モーダル操作（オーディオ-ビジュアルディープフェイクとも呼ばれる）は、単一モーダルのディープフェイク検出器がマルチメディアコンテンツにおける偽造を検出することを困難にします。虚偽のプロパガンダやフェイクニュースの拡散を防ぐためには、迅速な検出が不可欠です。視覚または音声のいずれかのモーダルに生じた損傷は、両方の情報を同時に活用できる多モーダルモデルを通じてのみ発見できます。従来の手法では、主に単一モーダルのビデオ鑑識が採用され、監督付き事前学習が偽造検出に使用されていました。本研究では、音声と視覚モーダル間の一貫性を活用して多モーダルビデオ偽造検出を行う新しい方法を提案します。この方法は、トランスフォーマーに基づく自己監督学習（Self-Supervised Learning: SSL）特徴抽出器であるAV-HuBERTモデルを使用し、視覚と音響特徴を抽出します。また、多スケールの一時的な畳み込みニューラルネットワークを使用して、音声と視覚モーダル間の一時的な相関関係を捉えます。AV-HuBERTは唇領域からの視覚特徴のみを抽出するため、顔面特徴を活用し、ディープフェイク生成過程で生じる空間的および時間的アーティファクトを捉えるために別のトランスフォーマーに基づくビデオモデルも採用しています。実験結果は、当社のモデルが既存のすべてのモデルを上回り、FakeAVCelebおよびDeepfakeTIMITデータセットにおいて新たな最先端性能を達成していることを示しています。

ソースPDF