HyperAIHyperAI

Command Palette

Search for a command to run...

소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기

초록

우리는 단일 프로파일 이미지, 텍스트 프롬프트, 오디오를 입력으로 받아 의미적으로 일관된 영상을 생성하는 고정밀 장기 디지털 인간 애니메이션을 위한 다중모달 기반 프레임워크 'Soul'을 제안한다. 이 프레임워크는 정확한 입술 동기화, 생생한 얼굴 표정 표현, 강력한 정체성 유지 능력을 달성한다. 데이터 부족 문제를 완화하기 위해, 프로파일, 상체, 전신, 다인용 장면을 포괄하는 정교한 자동 레이블링 파이프라인을 통해 100만 개의 정밀 레이블링된 샘플을 포함하는 'Soul-1M' 데이터셋을 구축하였으며, 오디오 및 텍스트 기반 애니메이션 기법의 종합적이고 공정한 평가를 위해 'Soul-Bench'를 철저히 구성하였다. 모델은 Wan2.2-5B 기반 아키텍처를 기반으로 하며, 오디오 주입 레이어와 다양한 학습 전략, 임계치 인식 기반 코드북 교체 기법을 통합하여 장기 생성 일관성을 보장한다. 한편, 스텝/CFG 디스틸레이션과 경량화된 VAE를 활용하여 추론 효율성을 최적화하여 품질 손실이 거의 없이 11.4배의 속도 향상을 달성하였다. 광범위한 실험 결과는 Soul이 현재 주요 오픈소스 및 상용 모델 대비 영상 품질, 영상-텍스트 일치도, 정체성 유지 능력, 입술 동기화 정확도에서 뚜렷한 우수성을 보이며, 가상 앵커, 영화 제작 등 실제 응용 시나리오에서 넓은 적용 가능성을 입증하였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기 | 문서 | HyperAI초신경