초록

대규모 모델의 급속한 발전은 디지털 인간 분야에서 중요한 돌파구를 촉진하였습니다. 이러한 고급 방법론들은 아바타 제어 및 렌더링에 대한 고정밀 솔루션을 제공하며, 학계는 다음 주요 과제인 오디오-비주얼 이원적 상호작용 가상 인간으로 초점을 맞추고 있습니다. 이 새로운 연구 영역을 지원하기 위해, 우리는 SpeakerVid-5M 데이터셋을 소개합니다. 이는 오디오-비주얼 이원적 상호작용 가상 인간 생성을 위한 첫 번째 대규모, 고품질 데이터셋입니다. 총 8,743시간 이상의 SpeakerVid-5M은 520만 개가 넘는 인간 초상 비디오 클립을 포함하고 있으며, 단일 대화, 듣기, 그리고 이원적 대화 등 다양한 규모와 상호작용 유형을 포괄합니다. 특히, 이 데이터셋은 두 가지 주요 차원인 상호작용 유형과 데이터 품질에 따라 구조화되어 있습니다. 첫째, 상호작용 시나리오에 따라 다이얼로그 분기(다이얼로그 브랜치), 단일 분기(싱글 브랜치), 듣기 분기(리스닝 브랜치), 그리고 다중 턴 분기(멀티-턴 브랜치)로 네 가지 유형으로 분류됩니다. 둘째, 대규모 사전 학습 하위 집합과 감독된 미세 조정(Supervised Fine-Tuning, SFT)을 위한 정교하게 구성된 고품질 하위 집합으로 계층화되어 있습니다. 이러한 이중 구조는 다양한 2D 가상 인간 작업을 지원할 수 있습니다. 또한, 우리는 이 데이터를 기반으로 자동 회귀(Autoregressive, AR) 방식의 비디오 챗 베이스라인을 제공하며, 이를 평가하기 위한 전용 메트릭과 테스트 데이터도 함께 제공하여 미래 연구를 위한 벤치마크 VidChatBench를 마련하였습니다. 데이터셋과 해당 데이터 처리 코드는 공개적으로 배포될 예정입니다.프로젝트 페이지: https://dorniwang.github.io/SpeakerVid-5M/

소스 PDF 코드 보기