11日前
自己教師あり学習を活用したリアルな会話顔を用いた堅牢な改ざん検出
Alexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic

要約
顔偽造動画の検出における最も重要な課題の一つは、訓練時に見られなかった偽造手法に対して一般化しつつ、圧縮などの一般的なノイズ条件下でも有効性を維持することである。本論文では、自然な顔の表情や動作に関する豊富な情報が含まれ、オンライン上で大量に入手可能な本物の会話映像を活用することで、この課題に取り組む可能性を検討する。提案手法は「RealForensics」と呼ばれ、2段階のアプローチから構成される。第一段階では、本物の動画における視覚的および聴覚的モダリティの自然な対応関係を活用し、自己教師付きのクロスモーダル学習によって、顔の運動、表情、識別情報といった要因を高密度な時間的表現として捉える特徴を学習する。第二段階では、これらの学習済み表現を、通常の偽造判定(真偽分類)タスクに加えて、偽造検出器が予測すべきターゲットとして用いる。これにより、検出器が真偽判断をこれらの自然な顔の特徴に基づくように促す。実験結果から、本手法は跨手法一般化性能および耐障害性において最先端の性能を達成しており、その性能向上に寄与する要因についても検証した。本研究の結果は、自然かつラベルなしの動画を活用することが、より堅牢な顔偽造検出器の開発にとって有望な方向性であることを示唆している。