Command Palette
Search for a command to run...
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
초록
우리는 단일 프로파일 이미지, 텍스트 프롬프트, 오디오를 입력으로 받아 의미적으로 일관된 영상을 생성하는 고정밀 장기 디지털 인간 애니메이션을 위한 다중모달 기반 프레임워크 'Soul'을 제안한다. 이 프레임워크는 정확한 입술 동기화, 생생한 얼굴 표정 표현, 강력한 정체성 유지 능력을 달성한다. 데이터 부족 문제를 완화하기 위해, 프로파일, 상체, 전신, 다인용 장면을 포괄하는 정교한 자동 레이블링 파이프라인을 통해 100만 개의 정밀 레이블링된 샘플을 포함하는 'Soul-1M' 데이터셋을 구축하였으며, 오디오 및 텍스트 기반 애니메이션 기법의 종합적이고 공정한 평가를 위해 'Soul-Bench'를 철저히 구성하였다. 모델은 Wan2.2-5B 기반 아키텍처를 기반으로 하며, 오디오 주입 레이어와 다양한 학습 전략, 임계치 인식 기반 코드북 교체 기법을 통합하여 장기 생성 일관성을 보장한다. 한편, 스텝/CFG 디스틸레이션과 경량화된 VAE를 활용하여 추론 효율성을 최적화하여 품질 손실이 거의 없이 11.4배의 속도 향상을 달성하였다. 광범위한 실험 결과는 Soul이 현재 주요 오픈소스 및 상용 모델 대비 영상 품질, 영상-텍스트 일치도, 정체성 유지 능력, 입술 동기화 정확도에서 뚜렷한 우수성을 보이며, 가상 앵커, 영화 제작 등 실제 응용 시나리오에서 넓은 적용 가능성을 입증하였다.