2달 전

TalkVid: 음성 주도 대화 헤드 합성용 대규모 다변화 데이터셋

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

초록

음성 기반 대화형 헤드 합성 기술은 놀라운 사진 실사성에 도달했으나, 최신 기술(SOTA) 모델들은 인종, 언어, 연령대 등 인간 다양성의 전 영역에 대한 일반화 능력이 부족하다는 치명적인 결함을 보이고 있다. 본 연구에서는 이러한 일반화 격차가 기존 훈련 데이터의 한계—즉, 규모, 품질, 다양성 측면에서 부족한 데이터—에 기인한다고 주장한다. 이를 해결하기 위해, 7,729명의 고유한 화자로부터 수집된 총 1,244시간의 영상을 포함하는 대규모, 고품질, 고다양성 데이터셋인 TalkVid를 소개한다. TalkVid는 운동 안정성, 미적 품질, 얼굴 세부 정보를 엄격히 필터링하는 체계적이고 다단계 자동화 파이프라인을 통해 철저히 수집·정제되었으며, 인간 평가를 기반으로 한 검증을 통해 신뢰성을 확보하였다. 또한, 주요 인구통계학적 및 언어적 축을 정밀하게 균형 잡은 500개 클립으로 구성된 계층화된 평가 세트인 TalkVid-Bench를 구축하고 공개한다. 실험 결과, TalkVid를 기반으로 훈련된 모델이 이전 데이터셋으로 훈련된 모델보다 우수한 교차 데이터셋 일반화 성능을 보였다. 특히 TalkVid-Bench를 활용한 분석을 통해 기존의 집계 지표로는 드러나지 않았던 하위 집단 간 성능 차이가 확인되었으며, 이는 향후 연구에서 TalkVid-Bench의 필수성을 강조한다. 코드 및 데이터는 https://github.com/FreedomIntelligence/TalkVid 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

TalkVid: 음성 주도 대화 헤드 합성용 대규모 다변화 데이터셋

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

초록

AI로 AI 구축

Hyper Newsletters

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li