
要約
操作されたビデオには、視覚信号と音声信号の間に微妙な不整合が含まれることが多いです。本研究では、異常検出を基盤としたビデオ鑑識手法を提案します。この手法は、これらの不整合を特定し、実際のラベルなしデータのみを使用して訓練することができます。我々は、ビデオフレームと音声の時間的な同期を捉える特徴量セットを使用して、オーディオ-ビジュアル特徴量の系列を生成する自己回帰モデルを訓練しました。テスト時には、モデルが低い確率を割り当てたビデオをフラグ付けします。完全に実際のビデオで訓練されているにもかかわらず、我々のモデルは操作された音声ビデオの検出タスクにおいて優れた性能を示しています。プロジェクトサイト: https://cfeng16.github.io/audio-visual-forensics