11일 전

AVTENet: 다중 전문가를 활용한 음성-시각 변환기 기반 앙상블 네트워크를 통한 비디오 딥페이크 탐지

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
AVTENet: 다중 전문가를 활용한 음성-시각 변환기 기반 앙상블 네트워크를 통한 비디오 딥페이크 탐지
초록

소셜 미디어 플랫폼에서 널리 퍼지는 위조 콘텐츠는 증가하는 규제 필요성을 요구하는 중대한 사회 문제이며, 연구계에 새로운 도전 과제를 제기하고 있다. 최근 초현실적인 딥페이크 영상의 급증은 음성 및 영상 위조의 위협에 주목을 끌었다. 기존의 인공지능 생성 위조 영상 탐지 연구 대부분은 시각 모달리티 또는 음성 모달리티 중 하나만을 활용하고 있다. 일부 연구에서는 음성과 영상 모달리티를 동시에 활용한 위조 영상 탐지 방법이 제안되었지만, 음성 및 영상 양쪽의 조작이 포함된 다중 모달 딥페이크 영상 데이터셋에서 종합적으로 평가된 사례는 부족하다. 게다가 기존의 이러한 방법들은 대부분 CNN 기반으로 구성되어 있어 낮은 탐지 정확도를 보이고 있다. 최근 다양한 분야에서 Transformer의 성공적인 적용을 영감으로 삼아, 딥페이크 기술이 초래하는 도전에 대응하기 위해 본 논문에서는 음성 조작과 영상 조작을 동시에 고려하는 음성-영상 트랜스포머 기반 앙상블 네트워크(AVTENet) 프레임워크를 제안한다. 구체적으로, 제안하는 모델은 영상, 음성, 음성-영상 다중 모달의 주요 특징을 효과적으로 포착할 수 있는 순수 트랜스포머 기반의 다양한 변형 모델들을 통합하여 예측 결과에 대한 일치된 판단을 도출한다. 평가를 위해 최근 공개된 벤치마크 다중 모달 음성-영상 FakeAVCeleb 데이터셋을 사용하였으며, 자세한 분석을 위해 AVTENet 및 그 변형 모델과 기존의 여러 방법들을 FakeAVCeleb 데이터셋의 여러 테스트 세트에서 평가하였다. 실험 결과, 본 연구에서 제안한 최적의 모델이 기존의 모든 방법들을 상회하며, FakeAVCeleb 데이터셋의 Testset-I 및 Testset-II에서 최고 성능을 달성함을 확인하였다.

AVTENet: 다중 전문가를 활용한 음성-시각 변환기 기반 앙상블 네트워크를 통한 비디오 딥페이크 탐지 | 최신 연구 논문 | HyperAI초신경