2달 전
TalkNCE: 대화 인식 대조 학습을 활용한 활성화된 발화자 검출 개선
Jung, Chaeyoung ; Lee, Suyeon ; Nam, Kihyun ; Rho, Kyeongha ; Kim, You Jin ; Jang, Youngjoon ; Chung, Joon Son

초록
이 연구의 목표는 Active Speaker Detection (ASD)로, 비디오 프레임 시리즈에서 사람이 실제로 말하고 있는지 아닌지를 판단하는 작업입니다. 이전 연구들은 효과적인 표현을 학습하는 것보다 네트워크 아키텍처를 탐구하는 데 더 중점을 두었습니다. 본 연구에서는 TalkNCE라는 새로운 대조 손실 함수를 제안합니다. 이 손실 함수는 화면에 나타난 사람이 실제로 말하고 있는 부분 세그먼트에만 적용됩니다. 이는 말과 얼굴 움직임 간의 자연스러운 대응성을 통해 모델이 효과적인 표현을 학습하도록 돕습니다. 우리의 손실 함수는 추가적인 감독이나 훈련 데이터 없이 기존 ASD 모델 훈련 목적과 함께 공동 최적화될 수 있습니다. 실험 결과, 우리의 손실 함수가 기존 ASD 프레임워크에 쉽게 통합되며 성능을 개선함을 보여주었습니다. 본 방법은 AVA-ActiveSpeaker와 ASW 데이터셋에서 최고 수준의 성능을 달성하였습니다.