11일 전
시간적 일관성을 탐구하여 보다 일반적인 비디오 얼굴 위조 탐지 가능하게 하기
Yinglin Zheng, Jianmin Bao, Dong Chen, Ming Zeng, Fang Wen

초록
현재의 얼굴 조작 기술은 품질과 조작 가능성 측면에서 놀라운 성능을 달성하고 있으나, 시간적 일관성을 갖춘 얼굴 영상을 생성하는 데는 여전히 어려움을 겪고 있다. 본 연구에서는 영상 얼굴 위조 탐지에 있어 시간적 일관성을 극대화하는 방안을 탐색한다. 이를 위해 두 가지 주요 단계로 구성된 새로운 엔드투엔드 프레임워크를 제안한다. 첫 번째 단계는 완전한 시간적 컨볼루션 네트워크(FTCN)이다. FTCN의 핵심 아이디어는 공간적 컨볼루션 커널 크기를 1로 축소하면서도 시간적 컨볼루션 커널 크기는 유지하는 것이다. 이 특수한 설계가 모델이 시간적 특징을 효과적으로 추출하는 데 기여할 뿐만 아니라 일반화 능력을 향상시킨다는 점을 놀랍게 발견하였다. 두 번째 단계는 장기적인 시간적 일관성을 탐색하는 목적을 가진 시간적 트랜스포머 네트워크이다. 제안된 프레임워크는 일반적이고 유연한 구조를 지니며, 사전 훈련 모델이나 외부 데이터셋 없이도 직접 초기 상태에서 훈련이 가능하다. 광범위한 실험을 통해 제안한 프레임워크가 기존 방법들을 능가함을 확인하였으며, 새로운 종류의 얼굴 위조 영상 탐지에 적용되었을 때도 효과성을 유지함을 입증하였다.