11일 전

자기지도 학습을 통한 실제 대화하는 얼굴 활용을 통한 강건한 위조 탐지

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic
자기지도 학습을 통한 실제 대화하는 얼굴 활용을 통한 강건한 위조 탐지
초록

얼굴 조작 영상 탐지 분야에서 가장 시급한 과제 중 하나는 학습 과정에서 접하지 못한 새로운 조작 기법에 대해 일반화할 수 있으면서도, 압축과 같은 일반적인 노이즈 환경에서도 효과적으로 작동할 수 있도록 하는 것이다. 본 논문에서는 실재하는 말하는 얼굴 영상(실제 얼굴 영상)을 활용하여 이 문제를 해결할 수 있는지 탐색한다. 이러한 영상은 자연스러운 얼굴 외형과 행동 양식에 대한 풍부한 정보를 포함하고 있으며, 인터넷 상에서 대량으로 쉽게 확보할 수 있다. 제안하는 방법은 RealForensics라고 명명되며, 두 단계로 구성된다. 첫 번째 단계에서는 실제 영상 내 시각적 및 청각적 모달 간의 자연스러운 대응 관계를 활용하여, 자기지도 교차모달 학습 방식으로 시간적으로 밀도 높은 영상 표현을 학습한다. 이 표현은 얼굴 운동, 표정, 정체성 등의 요소를 포착한다. 두 번째 단계에서는 이러한 학습된 표현을 조작 탐지기의 예측 대상으로 삼으며, 기존의 이진 조작 여부 분류 작업과 함께 사용함으로써, 탐지기가 실제/가짜 판단을 해당 요소들에 기반하게 유도한다. 실험을 통해 제안 방법이 교차 조작 일반화 및 강건성 테스트에서 최신 기준(SOTA) 성능을 달성함을 입증하였으며, 성능 향상에 기여하는 요인들을 분석하였다. 결과적으로 자연스럽고 레이블이 없는 영상을 활용하는 것은 더 강건한 얼굴 조작 탐지기 개발을 위한 유망한 방향성을 제시한다.

자기지도 학습을 통한 실제 대화하는 얼굴 활용을 통한 강건한 위조 탐지 | 최신 연구 논문 | HyperAI초신경