Command Palette
Search for a command to run...
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

초록
최근 들어 상호작용형 디지털 인간 영상 생성 기술이 널리 주목받으며 놀라운 발전을 이뤘다. 그러나 다양한 입력 신호를 실시간으로 처리할 수 있는 실용적인 시스템을 구축하는 데 있어 기존 방법들은 여전히 도전 과제에 직면해 있다. 이는 높은 지연 시간, 높은 계산 비용, 제한된 제어 가능성 등의 문제로 인해 발생한다. 본 연구에서는 실시간 스트리밍 방식으로 상호작용 가능한 다모달 제어와 낮은 지연 시간의 외삽을 가능하게 하는 자기회귀형 영상 생성 프레임워크를 제안한다. 표준 대규모 언어 모델(LLM)에 최소한의 수정을 가함으로써, 본 프레임워크는 음성, 자세, 텍스트 등 다양한 조건 인코딩을 수용하며, 분산 헤드의 노이즈 제거 과정을 안내하기 위한 공간적·의미적으로 일관된 표현을 출력한다. 이를 지원하기 위해, 다양한 출처에서 수집한 약 2만 시간 규모의 대규모 대화 데이터셋을 구축하였으며, 풍부한 대화 시나리오를 제공함으로써 모델 학습을 가능하게 했다. 또한, 최대 64배의 압축 비율을 달성하는 깊은 압축 오토인코더를 도입하여, 자기회귀 모델의 장기 예측 부담을 효과적으로 완화하였다. 이중 대화, 다국어 인간 합성, 상호작용형 월드 모델에 대한 광범위한 실험을 통해, 제안한 방법이 낮은 지연 시간, 높은 효율성, 세밀한 다모달 제어 가능성 측면에서 우수한 성능을 발휘함을 입증하였다.