초록

기존의 확산 기반 영상 생성 방법은 순차적 계산과 장기 예측 불일치라는 근본적인 제약에 직면해 있어 실시간 스트리밍 오디오 주도 아바타 생성 분야에서의 실용적 적용이 제한되어왔다. 본 연구에서는 140억 파라미터 확산 모델을 활용하여 효율적이고 고해상도, 무한 길이의 아바타 생성을 가능하게 하는 알고리즘-시스템 공동 설계 프레임워크인 Live Avatar를 제안한다. 제안하는 방법은 Timestep-forcing Pipeline Parallelism (TPP)을 도입하여, 여러 GPU에 걸쳐 노이즈 제거 단계를 파이프라인화함으로써 자기회귀적 병목 현상을 효과적으로 극복하고, 안정적이고 낮은 지연 시간을 보장하는 분산 추론 패러다임을 제공한다. 또한 시간적 일관성을 강화하고 정체성 왜곡 및 색상 아티팩트를 완화하기 위해, 캐시된 참조 이미지를 동적으로 활용하여 외형을 재보정하는 Rolling Sink Frame Mechanism (RSFM)을 제안한다. 더불어, 시각적 품질을 희생하지 않고도 대규모 모델의 인과적이고 스트리밍 가능한 적응을 가능하게 하는 Self-Forcing Distribution Matching Distillation 기법을 활용한다. Live Avatar는 5개의 H800 GPU에서 엔드투엔드 생성 속도로 최대 20 FPS를 달성하며, 현재까지 알려진 바에 따르면 이 규모에서 실용적이고 실시간이며 고해상도 아바타 생성을 처음으로 구현한 사례이다. 본 연구는 고급 확산 모델을 산업용 장시간 영상 생성 응용 분야에 배포하는 새로운 패러다임을 제시한다.

소스 PDF