11日前

AVTENet:複数のエキスパートを活用した音声視覚変換器ベースのアンサンブルネットワークによる動画ディープフェイク検出

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
AVTENet:複数のエキスパートを活用した音声視覚変換器ベースのアンサンブルネットワークによる動画ディープフェイク検出
要約

ソーシャルメディアプラットフォーム上で広く拡散される改ざんコンテンツは、社会的に深刻な問題であり、より強化された規制の必要性を示しており、研究コミュニティにも新たな課題を提起している。近年、極めて現実味のあるディープフェイク動画の急増により、音声および映像の改ざんという脅威が注目を集めている。これまでのAI生成偽動画検出に関する研究の多くは、視覚モダリティまたは音声モダリティのいずれか一方にのみ依拠している。一部の先行研究では音声と視覚の両モダリティを活用した偽動画検出手法が提案されているが、音声と視覚の両方を操作したディープフェイク動画を含むマルチモーダルデータセット上で、それらの手法が包括的に評価された例はほとんどない。さらに、これらの既存手法の多くはCNN(畳み込みニューラルネットワーク)に基づいており、検出精度が低く、限界がある。近年のTransformerの多分野における成功をヒントに、ディープフェイク技術に伴う課題に対応するため、本稿では音声と視覚の両方の操作を考慮した、音声-視覚Transformerベースのアンサンブルネットワーク(AVTENet)を提案する。具体的には、動画、音声、音声-視覚の特徴的パターンを捉える純粋なTransformerアーキテクチャの複数のバリエーションを統合し、予測結果の一致(コンセンサス)を達成する。評価のため、最近リリースされたベンチマークとなるマルチモーダル音声-映像データセットであるFakeAVCelebを用いる。詳細な分析のため、AVTENetおよびそのバリエーション、および複数の既存手法をFakeAVCelebデータセットの複数のテストセットで評価した。実験結果から、本研究で提案する最良のモデルが、すべての既存手法を上回り、FakeAVCelebデータセットのTestset-IおよびTestset-IIにおいて最先端(SOTA)の性能を達成したことが確認された。