2달 전
End-to-End 활성 화자 검출
Alcazar, Juan Leon ; Cordes, Moritz ; Zhao, Chen ; Ghanem, Bernard

초록
최근의 활성 화자 검출(Active Speaker Detection, ASD) 문제에서의 발전은 특징 추출과 시공간 컨텍스트 집합이라는 두 단계 과정을 기반으로 하고 있습니다. 본 논문에서는 특징 학습과 컨텍스트 예측이 공동으로 학습되는 엔드투엔드 ASD 워크플로를 제안합니다. 우리의 엔드투엔드 학습 가능한 네트워크는 다중 모달 임베딩을 동시에 학습하고 시공간 컨텍스트를 집합화합니다. 이는 더 적합한 특징 표현을 생성하여 ASD 작업의 성능을 향상시키는 결과를 가져옵니다. 또한, ASD 문제의 주요 컨텍스트 출처에 따라 메시지 전달을 분할하는 중첩 그래프 신경망(interleaved Graph Neural Network, iGNN) 블록을 소개합니다. 실험 결과, iGNN 블록에서 얻은 집합화된 특징들이 ASD에 더 적합하여 최고 수준의 성능을 보임을 확인할 수 있었습니다. 마지막으로, 우리는 오디오 주석만을 사용하면서도 오디오-비주얼 데이터를 활용할 수 있는 약한 감독 전략을 설계하였습니다. 이를 통해 오디오 신호와 가능한 사운드 소스(화자) 간의 직접적인 관계를 모델링하고 대조 손실(contrastive loss)을 도입하였습니다. 본 프로젝트의 모든 자원은 다음과 같은 URL에서 제공될 예정입니다: https://github.com/fuankarion/end-to-end-asd.