음성 위조 탐지를 위한 다중 모달 정보 융합
최근 몇 년간 음성 인증 시스템은 다양한 실용적 환경에서 활용되고 있다. 그러나 여전히 음성 합성 공격, 재생 공격 등 다양한 위조 공격에 매우 취약한 상태이다. 연구자들은 이러한 공격에 대응하기 위해 다양한 방법을 제안해 왔으나, 기존의 방법들은 음성 특징에만 초점을 맞추고 있다. 최근 연구에서 음성에는 얼굴 정보가 다량 포함되어 있음을 발견하였다. 실제로 음성만으로도 화자의 성별, 연령, 입모양 등의 정보를 파악할 수 있다. 이러한 정보는 위조 공격을 구분하는 데 도움을 줄 수 있다. 이러한 현상에 영감을 받아, 우리는 GACMNet이라는 일반화된 프레임워크를 제안한다. 다양한 공격 시나리오에 대응하기 위해 두 가지 다른 모델을 구현하였다. 본 프레임워크는 데이터 전처리 단계, 특징 추출 단계, 특징 융합 단계, 분류 단계로 구성되어 있다. 구체적으로 본 프레임워크는 두 가지 분기로 나뉘어 있다. 한편으로는 합성곱 신경망(CNN)을 이용해 음성 내에서 얼굴 특징을 추출하고, 다른 한편으로는 밀집 연결 네트워크(Densely Connected Network)를 활용하여 음성 특징을 추출한다. 또한, 각 특징 부분의 중요도를 구분하기 위해 글로벌 주의 기반 정보 융합 메커니즘을 설계하였다. 제안한 솔루션은 두 가지 대규모 시나리오에서 효과가 입증되었다. 기존 방법과 비교했을 때, 논리적 접근 시나리오에서 본 모델은 탄덤 결정 비용 함수(t-DCF)와 동일 오류율(EER)을 각각 9%, 11% 개선하였으며, 물리적 접근 시나리오에서는 EER을 10% 향상시켰다.