MINTIME: 다중 정체성 크기 불변 영상 딥페이크 탐지

이 논문에서는 동영상 딥페이크 탐지 기법인 MINTIME를 소개한다. MINTIME는 동영상 내 다중 인물의 존재와 얼굴 크기의 변동성을 고려하여 공간적·시적 이상을 포착하는 방법이다. 기존의 접근법들은 이러한 정보를 무시하거나, 단순한 사후 집계 방식(예: 평균 또는 최댓값 연산)을 사용하거나, 추론 시 하나의 인물(일반적으로 가장 큰 인물)만을 고려한다. 반면 본 연구에서 제안하는 방법은 공간-시적 시간 변형 모델(TimeSformer)과 컨볼루션 신경망 기반 아키텍처를 결합하여, 동영상 내 여러 인물의 얼굴 시퀀스로부터 공간-시적 이상을 효과적으로 포착한다. 이를 위해 각 얼굴 시퀀스를 마스킹 연산에 기반해 독립적으로 주목할 수 있는 인물 인식 주의 메커니즘(Identity-aware Attention mechanism)을 도입하였으며, 이는 비디오 수준의 정보 집계를 가능하게 한다. 또한 두 가지 새로운 임베딩 기법을 도입하였다. 첫째, 각 얼굴 시퀀스의 시적 정보를 인코딩하는 시간 일관성 위치 임베딩(Temporal Coherent Positional Embedding)이며, 둘째, 얼굴 크기를 영상 프레임 크기 대비 비율로 표현하는 크기 임베딩(Size Embedding)이다. 이러한 확장은 다중 인물의 정보를 어떻게 집계할지 학습함으로써, 실제 환경(외부 환경, 즉 월드 와이드 상황)에서 특히 뛰어난 적응성을 보여준다. 이는 기존 연구에서 일반적으로 간과되는 문제이다. MINTIME는 다중 인물이 포함된 영상에서 ForgeryNet 데이터셋에서 최신 기술 대비 최대 14%의 AUC 개선을 달성하며, 다양한 종류의 위조 기법 및 다양한 데이터셋 간 전이 설정에서도 뛰어난 일반화 능력을 입증하였다. 코드는 공개적으로 제공되며, 다음 링크에서 확인할 수 있다: https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.