2달 전

오미니휴먼-1.5: 인지 시뮬레이션을 통한 아바타에 능동적 사고 심화

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

초록

기존의 비디오 아바타 모델들은 유연한 인간 애니메이션을 생성할 수는 있으나, 단순한 신체적 유사성 이상의 캐릭터 고유한 본질을 포착하는 데는 어려움을 겪는다. 이러한 모델들의 움직임은 일반적으로 음성 리듬과 같은 저수준의 자극에 동기화되는 경우가 많으며, 감정, 의도, 맥락에 대한 심층적인 의미적 이해를 부족하게 한다. 이 격차를 메우기 위해, 본질적으로 신체적으로 타당할 뿐 아니라 의미적으로 일관되고 표현력 있는 캐릭터 애니메이션을 생성할 수 있도록 설계된 프레임워크를 제안한다. 본 연구에서 제안하는 모델인 OmniHuman-1.5는 두 가지 핵심 기술적 기여에 기반한다. 첫째, 다중모달 대규모 언어 모델(Multimodal Large Language Models)을 활용하여 고수준의 의미적 지침을 제공하는 구조화된 텍스트 표현을 생성한다. 이 지침은 단순한 리듬 동기화를 넘어서, 맥락과 감정적으로 공명하는 행동을 생성할 수 있도록 움직임 생성기의 방향성을 제어한다. 둘째, 이러한 다중모달 입력의 효과적인 융합을 보장하고 모달 간 충돌을 완화하기 위해, 새로운 '가상 마지막 프레임(Pseudo Last Frame)' 설계를 도입한 특화된 다중모달 DiT 아키텍처를 제안한다. 이러한 구성 요소들의 상호작용을 통해 모델은 음성, 이미지, 텍스트의 공동 의미를 정확히 해석할 수 있으며, 캐릭터, 장면, 언어적 입력과 깊이 일관된 움직임을 생성할 수 있다. 광범위한 실험 결과에 따르면, 본 모델은 입술 동기화 정확도, 비디오 품질, 움직임 자연스러움, 텍스트 프롬프트와의 의미 일관성 등 종합적인 지표에서 최상의 성능을 달성함을 입증하였다. 더불어, 다인용 및 비인간 주제를 포함한 복잡한 시나리오에도 뛰어난 확장성을 보여준다.홈페이지: https://omnihuman-lab.github.io/v1_5/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

오미니휴먼-1.5: 인지 시뮬레이션을 통한 아바타에 능동적 사고 심화

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

초록

AI로 AI 구축

Hyper Newsletters