11日前

本当にその通りですか?コンテンツ駆動型の音声・視覚ディープフェイクデータセットと時系列改ざん局所化のためのマルチモーダル手法

Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
本当にその通りですか?コンテンツ駆動型の音声・視覚ディープフェイクデータセットと時系列改ざん局所化のためのマルチモーダル手法
要約

社会的影響が大きいことから、ディープフェイク検出はコンピュータビジョン分野で注目を集めている。既存の大多数のディープフェイク検出手法は、動画全体またはランダムな位置において、顔の識別情報、顔貌特徴、および敵対的摂動に基づく時空間的変更を用いる一方で、コンテンツの意味は保持されたままとなる。しかし、高度に洗練されたディープフェイクは、動画や音声のわずかな部分のみを操作しており、その結果、コンテンツの意味が感情の方向性において完全に逆転する可能性がある。本研究では、時系列的な偽造領域の局所化を学習するという目的に特化して設計された、コンテンツ駆動型の音声・映像ディープフェイクデータセット「Localized Audio Visual DeepFake(LAV-DF)」を提案する。具体的には、動画全体の感情極性を意図的に変更する戦略的な音声・映像操作を実施している。本データセットのベンチマークとしてのベースライン手法として、境界認識型時系列偽造検出(Boundary Aware Temporal Forgery Detection, BA-TFD)と呼ばれる3DCNNモデルを採用し、対照学習、境界マッチング、フレーム分類の各損失関数を用いて学習をガイドしている。広範な定量的・定性的な分析により、提案手法が時系列偽造領域の局所化およびディープフェイク検出というタスクにおいて優れた性能を発揮することが示された。

本当にその通りですか?コンテンツ駆動型の音声・視覚ディープフェイクデータセットと時系列改ざん局所化のためのマルチモーダル手法 | 最新論文 | HyperAI超神経