Command Palette

Search for a command to run...

2달 전

TalkVid: 음성 주도 대화 헤드 합성용 대규모 다변화 데이터셋

TalkVid: 음성 주도 대화 헤드 합성용 대규모 다변화 데이터셋

초록

음성 기반 대화형 헤드 합성 기술은 놀라운 사진 실사성에 도달했으나, 최신 기술(SOTA) 모델들은 인종, 언어, 연령대 등 인간 다양성의 전 영역에 대한 일반화 능력이 부족하다는 치명적인 결함을 보이고 있다. 본 연구에서는 이러한 일반화 격차가 기존 훈련 데이터의 한계—즉, 규모, 품질, 다양성 측면에서 부족한 데이터—에 기인한다고 주장한다. 이를 해결하기 위해, 7,729명의 고유한 화자로부터 수집된 총 1,244시간의 영상을 포함하는 대규모, 고품질, 고다양성 데이터셋인 TalkVid를 소개한다. TalkVid는 운동 안정성, 미적 품질, 얼굴 세부 정보를 엄격히 필터링하는 체계적이고 다단계 자동화 파이프라인을 통해 철저히 수집·정제되었으며, 인간 평가를 기반으로 한 검증을 통해 신뢰성을 확보하였다. 또한, 주요 인구통계학적 및 언어적 축을 정밀하게 균형 잡은 500개 클립으로 구성된 계층화된 평가 세트인 TalkVid-Bench를 구축하고 공개한다. 실험 결과, TalkVid를 기반으로 훈련된 모델이 이전 데이터셋으로 훈련된 모델보다 우수한 교차 데이터셋 일반화 성능을 보였다. 특히 TalkVid-Bench를 활용한 분석을 통해 기존의 집계 지표로는 드러나지 않았던 하위 집단 간 성능 차이가 확인되었으며, 이는 향후 연구에서 TalkVid-Bench의 필수성을 강조한다. 코드 및 데이터는 https://github.com/FreedomIntelligence/TalkVid 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
TalkVid: 음성 주도 대화 헤드 합성용 대규모 다변화 데이터셋 | 연구 논문 | HyperAI초신경