Command Palette
Search for a command to run...

초록
음성 기반 대화형 헤드 합성 기술은 놀라운 사진 실사성에 도달했으나, 최신 기술(SOTA) 모델들은 인종, 언어, 연령대 등 인간 다양성의 전 영역에 대한 일반화 능력이 부족하다는 치명적인 결함을 보이고 있다. 본 연구에서는 이러한 일반화 격차가 기존 훈련 데이터의 한계—즉, 규모, 품질, 다양성 측면에서 부족한 데이터—에 기인한다고 주장한다. 이를 해결하기 위해, 7,729명의 고유한 화자로부터 수집된 총 1,244시간의 영상을 포함하는 대규모, 고품질, 고다양성 데이터셋인 TalkVid를 소개한다. TalkVid는 운동 안정성, 미적 품질, 얼굴 세부 정보를 엄격히 필터링하는 체계적이고 다단계 자동화 파이프라인을 통해 철저히 수집·정제되었으며, 인간 평가를 기반으로 한 검증을 통해 신뢰성을 확보하였다. 또한, 주요 인구통계학적 및 언어적 축을 정밀하게 균형 잡은 500개 클립으로 구성된 계층화된 평가 세트인 TalkVid-Bench를 구축하고 공개한다. 실험 결과, TalkVid를 기반으로 훈련된 모델이 이전 데이터셋으로 훈련된 모델보다 우수한 교차 데이터셋 일반화 성능을 보였다. 특히 TalkVid-Bench를 활용한 분석을 통해 기존의 집계 지표로는 드러나지 않았던 하위 집단 간 성능 차이가 확인되었으며, 이는 향후 연구에서 TalkVid-Bench의 필수성을 강조한다. 코드 및 데이터는 https://github.com/FreedomIntelligence/TalkVid 에서 확인할 수 있다.