18일 전
합성 음성 탐지 연구는 올바른 방향으로 나아가고 있는가?
{Dario Allegra, Filippo Stanco, Oliver Giudice, Stefano Borzì}

초록
기계학습, 더 넓게는 인공지능 기반의 접근법은 컴퓨터 과학의 모든 분야에서 큰 발전을 가져왔으며, 기존의 모든 문제에 대해 예측 정확도를 획기적으로 향상시켰다. 실제로 이러한 발전은 가짜 콘텐츠 및 다매체 콘텐츠의 변조를 탐지하기 위한 조사 및 법의학적 상황에서 활용 가능한 효과적인 프레임워크와 솔루션을 구축할 수 있도록 했다. 그러나 이러한 시스템에 신뢰를 둘 수 있을까? 연구 활동은 올바른 방향으로 나아가고 있는가? 현실 세계에서 흔히 발생하는 다양한 상황을 고려하지 않고, 단지 쉽게 접근 가능한 문제들만 해결하는 데 집중하고 있는 것은 아닐까? 본 논문의 목적은 합성 음성 탐지 분야에서, 학습에 사용 가능한 데이터가 충분하지 않아 기존 문헌에 제시된 기법들에 대해 충분한 신뢰를 갖기 어려운 상황을 연구 공동체에 경고하는 것이다. 이를 위해 가장 일반적으로 사용되는 음성 위조(voice spoofing) 데이터셋에 대한 탐색적 분석을 수행한 결과, 심층학습(Deep Learning) 기법 없이도 간단한 분류기(simple classifiers)를 구성하는 것이 놀랍게도 매우 쉬운 것으로 나타났다. 단순한 비트레이트(bitrate)에 대한 고려만으로도 효과적인 탐지 성능을 달성할 수 있었다.