Command Palette

Search for a command to run...

2달 전

HuMo: 인간 중심의 비디오 생성을 위한 협업형 다중 모달 조건부 접근

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

HuMo: 인간 중심의 비디오 생성을 위한 협업형 다중 모달 조건부 접근

초록

인간 중심 영상 생성(Human-Centric Video Generation, HCVG) 기법은 텍스트, 이미지, 음성 등의 다중 모달 입력에서 인간 영상을 합성하는 것을 목표로 한다. 기존의 방법들은 두 가지 도전 과제로 인해 이 다양하고 비유사한 모달 간의 효과적인 조율이 어렵다: 먼저, 텍스트, 참조 이미지, 음성의 쌍으로 구성된 훈련 데이터의 부족이며, 두 번째로는 다중 모달 입력을 기반으로 한 주체 보존 및 음성-시각 동기화라는 하위 작업 간의 협업이 어렵다는 점이다. 본 연구에서는 다중 모달 조절을 위한 협업형 통합 HCVG 프레임워크인 HuMo를 제안한다. 첫 번째 과제에 대응하기 위해, 다양한 구성과 쌍으로 이루어진 고품질의 텍스트, 참조 이미지, 음성 데이터셋을 구축하였다. 두 번째 과제에 대해선, 작업별 전략을 적용하는 두 단계의 점진적 다중 모달 훈련 프레임워크를 제안한다. 주체 보존 작업에서는 기초 모델의 프롬프트 따르기 및 시각적 생성 능력을 유지하기 위해 최소한의 간섭을 가하는 이미지 주입 전략을 채택하였다. 음성-시각 동기화 작업에서는 일반적으로 사용되는 음성 크로스 어텐션 레이어 외에도, 음성과 얼굴 영역 간의 관계를 암묵적으로 유도하는 '예측을 통한 집중(-focus-by-predicting)' 전략을 제안하였다. 다중 모달 입력에 대한 제어 능력의 공동 학습을 위해, 이전에 획득한 능력을 기반으로 점진적으로 음성-시각 동기화 작업을 통합하였다. 추론 과정에서는 유연하고 세밀한 다중 모달 제어를 위해, 노이즈 제거 단계에 따라 가이던스 가중치를 동적으로 조정하는 시간 적응형 분류기 없는 가이던스(Classifier-Free Guidance) 전략을 설계하였다. 광범위한 실험 결과를 통해 HuMo가 하위 작업에서 전문적인 최신 기법들을 모두 초월함을 입증하였으며, 협업형 다중 모달 조건부 HCVG를 위한 통합적 프레임워크를 구축하였다. 프로젝트 페이지: https://phantom-video.github.io/HuMo

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
HuMo: 인간 중심의 비디오 생성을 위한 협업형 다중 모달 조건부 접근 | 연구 논문 | HyperAI초신경