2ヶ月前
ビデオ顔操作検出のためのCNNアンサンブルを用いた手法
Bonettini, Nicolò ; Cannas, Edoardo Daniele ; Mandelli, Sara ; Bondi, Luca ; Bestagini, Paolo ; Tubaro, Stefano

要約
最近数年、ビデオにおける顔操作技術(例:FaceSwap、ディープフェイクなど)が成功裏に開発され、一般大衆にも利用可能となっています。これらの手法は、誰でもビデオシーケンス内の顔を非常に現実的な結果で簡単に編集できるようにしています。これらのツールは多くの分野で有用である一方、悪意を持って使用された場合、社会に大きな悪影響を及ぼす可能性があります(例:偽ニュースの拡散、偽りの復讐ポルノを通じたサイバーブリーリング)。したがって、ビデオシーケンス内で顔が操作されたかどうかを客観的に検出する能力は極めて重要な課題です。本論文では、現代の顔操作技術を対象としたビデオシーケンスでの顔操作検出問題に取り組んでいます。特に、異なる訓練済みの畳み込みニューラルネットワーク(CNN)モデルのアンサンブルについて研究しています。提案する解決策では、ベースネットワーク(例:EfficientNetB4)から出発し、以下の2つの異なる概念を利用することで異なるモデルを取得します。(i) アテンション層;(ii) シアム訓練。これらのネットワークを組み合わせることにより、公開されている2つのデータセット(119,000件以上のビデオを含む)において有望な顔操作検出結果が得られることを示しています。