HyperAIHyperAI

Command Palette

Search for a command to run...

EfficientNetとVision Transformersを組み合わせた動画ディープフェイク検出

Davide Coccomini Nicola Messina Claudio Gennaro Fabrizio Falchi

概要

ディープフェイク(Deepfakes)とは、現実的だが偽造された画像や映像を生成するためのデジタル操作の結果である。近年、深層生成モデルの著しい進展により、変分自己符号化器(VAEs)や生成対抗ネットワーク(GANs)を用いた偽造画像や映像の作成が可能となっており、これらの技術はよりアクセスしやすく、精度も向上しているため、検出が極めて困難な偽映像が次々と登場している。従来、動画におけるディープフェイク検出には畳み込みニューラルネットワーク(CNNs)が用いられてきたが、特にEfficientNet B7をベースとする手法が最も優れた結果をもたらした。本研究では、人間の顔の生成技術が極めて高精度化していることから、顔を対象とした動画ディープフェイク検出に焦点を当てる。具体的には、特徴抽出器として畳み込み型EfficientNet B0を用い、複数のVision Transformer(ViT)アーキテクチャを組み合わせることで、近年のViTを活用した先進的な手法と同等の性能を達成した。既存の最先端手法とは異なり、本研究では知識蒸留(distillation)やアンサンブル(ensemble)手法を一切使用していない。さらに、同一映像ショットに複数の顔が含まれる場合に対応するため、シンプルな投票方式に基づく明快な推論手順を提案している。最良のモデルはAUC 0.951、F1スコア88.0%を達成し、DeepFake Detection Challenge(DFDC)における最先端水準に極めて近い性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています