2달 전

MIDAS: 실시간 자기회귀 영상 생성을 통한 다중모달 상호작용 디지털 인간 합성

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

초록

최근 들어 상호작용형 디지털 인간 영상 생성 기술이 널리 주목받으며 놀라운 발전을 이뤘다. 그러나 다양한 입력 신호를 실시간으로 처리할 수 있는 실용적인 시스템을 구축하는 데 있어 기존 방법들은 여전히 도전 과제에 직면해 있다. 이는 높은 지연 시간, 높은 계산 비용, 제한된 제어 가능성 등의 문제로 인해 발생한다. 본 연구에서는 실시간 스트리밍 방식으로 상호작용 가능한 다모달 제어와 낮은 지연 시간의 외삽을 가능하게 하는 자기회귀형 영상 생성 프레임워크를 제안한다. 표준 대규모 언어 모델(LLM)에 최소한의 수정을 가함으로써, 본 프레임워크는 음성, 자세, 텍스트 등 다양한 조건 인코딩을 수용하며, 분산 헤드의 노이즈 제거 과정을 안내하기 위한 공간적·의미적으로 일관된 표현을 출력한다. 이를 지원하기 위해, 다양한 출처에서 수집한 약 2만 시간 규모의 대규모 대화 데이터셋을 구축하였으며, 풍부한 대화 시나리오를 제공함으로써 모델 학습을 가능하게 했다. 또한, 최대 64배의 압축 비율을 달성하는 깊은 압축 오토인코더를 도입하여, 자기회귀 모델의 장기 예측 부담을 효과적으로 완화하였다. 이중 대화, 다국어 인간 합성, 상호작용형 월드 모델에 대한 광범위한 실험을 통해, 제안한 방법이 낮은 지연 시간, 높은 효율성, 세밀한 다모달 제어 가능성 측면에서 우수한 성능을 발휘함을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

MIDAS: 실시간 자기회귀 영상 생성을 통한 다중모달 상호작용 디지털 인간 합성

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

초록

AI로 AI 구축

Hyper Newsletters