11일 전

다중 작업 학습을 통한 음성-시각적 활성 화자 탐지

{Shiguang Shan, Shuang Yang, Jingyun Xiao, Yuanhang Zhang}
다중 작업 학습을 통한 음성-시각적 활성 화자 탐지
초록

이 보고서는 2019년 ActivityNet 챌린지의 활성 화자 탐지 과제(B-2)에 제출한 연구의 접근 방식을 설명한다. 우리는 입술 읽기(lipreading)를 위해 사전 훈련된 3D-ResNet18 시각 모델과 오디오-비디오 동기화(audio-to-video synchronization)를 위해 사전 훈련된 VGG-M 음성 모델을 기반으로 하는 새로운 음성-시각 모델을 제안한다. 이 모델은 다중 작업 학습(multi-task learning) 방식으로 두 가지 손실 함수를 사용하여 훈련된다: 활성 화자에 대한 오디오 및 비디오 특징 간 일치를 강제하는 대조 손실(contrastive loss)과 화자/비화자 레이블을 얻기 위한 일반적인 교차 엔트로피 손실(cross-entropy loss). 제안한 모델은 AVAActiveSpeaker 검증 세트에서 84.0%의 mAP를 달성하였다. 실험 결과는 사전 훈련된 임베딩이 다양한 과제와 데이터 형식 간에 전이 가능함을 보여주며, 제안한 다중 작업 학습 전략의 우수성을 입증한다.

다중 작업 학습을 통한 음성-시각적 활성 화자 탐지 | 최신 연구 논문 | HyperAI초신경