
要約
Deepfake技術の進展は著しく、コミュニティにとって二面性を持つ存在である。一方で、映画の古くからのコンテンツを修復するなど有益な用途に利用できるが、一方で、人々を操作するための偽の映像を作成したり、同意のないポルノコンテンツを拡散するといった悪用も可能である。こうした不正利用に対処するため、多数の公開データセットと単モーダル(unimodal)な深層学習モデルの活用により、偽映像の検出性能が著しく向上した。しかし、視覚的および音声的両方のモーダルにわたる操作(multimodal manipulation)に対応するには、これらの手法は依然として不十分である。本研究では、新たな唇読み(lip-reading)に基づくマルチモーダルDeepfake検出手法「Lip Sync Matters」を提案する。この手法は、Wav2lipモデルによって音声から合成された唇の動きと、映像から抽出された実際の唇の動きとの間に生じる不整合(mismatch)に着目し、高次元の意味的特徴(high-level semantic features)を活用して偽造映像を検出することを目的としている。実験結果から、公開されているマルチモーダルなFakeAVCelebデータセットにおいて、提案手法は既存の単モーダル・アンサンブル・マルチモーダル手法を上回る性能を示した。