MINTIME:マルチアイデンティティ・サイズ不変型ビデオディープフェイク検出

本稿では、複数人の人物が登場する動画や顔のサイズの変動に対応しつつ、空間的・時間的異常を捉える動画ディープフェイク検出手法であるMINTIMEを提案する。従来の手法は、単純な事後集約方式(平均やmax演算)を用いるか、推論時に一つの人物(通常は最大サイズの人物)のみを対象としているため、このような情報を無視する傾向がある。これに対して、本手法は空間時間的時系列特徴抽出器(Spatio-Temporal TimeSformer)と畳み込みニューラルネットワーク(CNN)ベースネットワークを組み合わせ、動画内に複数の人物が描写される顔系列から空間時間的異常を効果的に捉える。これは、マスク操作に基づいて各顔系列を独立して注目する「識別子認識型アテンション(Identity-aware Attention)」機構により実現され、動画レベルでの情報集約を促進する。さらに、本手法では以下の2つの新規埋め込み(embedding)を導入している:(i) 各顔系列の時間的情報を符号化する「時間整合性位置埋め込み(Temporal Coherent Positional Embedding)」、および (ii) 顔のサイズを動画フレーム全体に対する比として符号化する「サイズ埋め込み(Size Embedding)」。これらの拡張により、本システムは複数の識別子に関する情報をどのように集約すべきかを学習でき、実環境(in the wild)における適応性が著しく向上する。特に、複数人の人物が登場する動画においてForgeryNetデータセットでSOTA(最先端)の性能を達成し、AUC指標で最大14%の向上を示した。また、異なる偽造手法や異なるデータセット間での汎化性能も顕著に優れている。本手法の実装コードは、https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection にて公開されている。