HyperAIHyperAI

Command Palette

Search for a command to run...

SpeakerVid-5M: 대규모 고품질 오디오-비주얼 다이아딕 인터랙티브 인간 생성 데이터셋

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

초록

대규모 모델의 급속한 발전은 디지털 인간 분야에서 중요한 돌파구를 촉진하였습니다. 이러한 고급 방법론들은 아바타 제어 및 렌더링에 대한 고정밀 솔루션을 제공하며, 학계는 다음 주요 과제인 오디오-비주얼 이원적 상호작용 가상 인간으로 초점을 맞추고 있습니다. 이 새로운 연구 영역을 지원하기 위해, 우리는 SpeakerVid-5M 데이터셋을 소개합니다. 이는 오디오-비주얼 이원적 상호작용 가상 인간 생성을 위한 첫 번째 대규모, 고품질 데이터셋입니다. 총 8,743시간 이상의 SpeakerVid-5M은 520만 개가 넘는 인간 초상 비디오 클립을 포함하고 있으며, 단일 대화, 듣기, 그리고 이원적 대화 등 다양한 규모와 상호작용 유형을 포괄합니다. 특히, 이 데이터셋은 두 가지 주요 차원인 상호작용 유형과 데이터 품질에 따라 구조화되어 있습니다. 첫째, 상호작용 시나리오에 따라 다이얼로그 분기(다이얼로그 브랜치), 단일 분기(싱글 브랜치), 듣기 분기(리스닝 브랜치), 그리고 다중 턴 분기(멀티-턴 브랜치)로 네 가지 유형으로 분류됩니다. 둘째, 대규모 사전 학습 하위 집합과 감독된 미세 조정(Supervised Fine-Tuning, SFT)을 위한 정교하게 구성된 고품질 하위 집합으로 계층화되어 있습니다. 이러한 이중 구조는 다양한 2D 가상 인간 작업을 지원할 수 있습니다. 또한, 우리는 이 데이터를 기반으로 자동 회귀(Autoregressive, AR) 방식의 비디오 챗 베이스라인을 제공하며, 이를 평가하기 위한 전용 메트릭과 테스트 데이터도 함께 제공하여 미래 연구를 위한 벤치마크 VidChatBench를 마련하였습니다. 데이터셋과 해당 데이터 처리 코드는 공개적으로 배포될 예정입니다.프로젝트 페이지: https://dorniwang.github.io/SpeakerVid-5M/


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SpeakerVid-5M: 대규모 고품질 오디오-비주얼 다이아딕 인터랙티브 인간 생성 데이터셋 | 문서 | HyperAI초신경