11일 전
자기지도 학습을 통한 실제 대화하는 얼굴 활용을 통한 강건한 위조 탐지
Alexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic

초록
얼굴 조작 영상 탐지 분야에서 가장 시급한 과제 중 하나는 학습 과정에서 접하지 못한 새로운 조작 기법에 대해 일반화할 수 있으면서도, 압축과 같은 일반적인 노이즈 환경에서도 효과적으로 작동할 수 있도록 하는 것이다. 본 논문에서는 실재하는 말하는 얼굴 영상(실제 얼굴 영상)을 활용하여 이 문제를 해결할 수 있는지 탐색한다. 이러한 영상은 자연스러운 얼굴 외형과 행동 양식에 대한 풍부한 정보를 포함하고 있으며, 인터넷 상에서 대량으로 쉽게 확보할 수 있다. 제안하는 방법은 RealForensics라고 명명되며, 두 단계로 구성된다. 첫 번째 단계에서는 실제 영상 내 시각적 및 청각적 모달 간의 자연스러운 대응 관계를 활용하여, 자기지도 교차모달 학습 방식으로 시간적으로 밀도 높은 영상 표현을 학습한다. 이 표현은 얼굴 운동, 표정, 정체성 등의 요소를 포착한다. 두 번째 단계에서는 이러한 학습된 표현을 조작 탐지기의 예측 대상으로 삼으며, 기존의 이진 조작 여부 분류 작업과 함께 사용함으로써, 탐지기가 실제/가짜 판단을 해당 요소들에 기반하게 유도한다. 실험을 통해 제안 방법이 교차 조작 일반화 및 강건성 테스트에서 최신 기준(SOTA) 성능을 달성함을 입증하였으며, 성능 향상에 기여하는 요인들을 분석하였다. 결과적으로 자연스럽고 레이블이 없는 영상을 활용하는 것은 더 강건한 얼굴 조작 탐지기 개발을 위한 유망한 방향성을 제시한다.