Command Palette

Search for a command to run...

온라인 튜토리얼: 다중 모드 협업 비디오 생성 프레임워크 HuMo-1.7B: 통합 그래픽, 텍스트 및 오디오를 통한 비디오 제작 경험 달성

Featured Image

요즘 AI가 제작한 영상은 점점 더 사실적으로 변하고 있습니다. 언뜻 보기에는 놀라울 정도로 훌륭해 보이지만, 자세히 들여다보면 어딘가 이상해 보이는 경우가 많습니다. 진짜와 가짜 사이의 이 "불쾌한 골짜기" 현상은 놀랍고도 피할 수 없는 현상입니다.

창작 작업에서 흔히 볼 수 있는 상황을 생각해 보세요. 고객이 막연한 아이디어만 제시하면 최종 결과물은 기대에 미치지 못하는 경우가 많습니다. 스타일, 캐릭터, 톤, 분위기 등 세부적인 요구 사항을 구체화해야만 이상적인 결과물에 가까워질 수 있습니다. 영상 제작도 마찬가지입니다. 사진이나 텍스트와 달리 영상은 소리, 캐릭터, 동작 등 다양한 정보를 담고 있습니다.즉, 모델은 텍스트의 의미를 "이해"할 뿐만 아니라 시각적, 청각적 표현을 "조정"해야 합니다.

그러나 대부분의 현재 모델은 입력을 위해 단일 모달리티에 의존합니다. 최근 다중 모달 제어를 위한 시도는 음성, 표현, 그리고 동작 간의 효과적인 협업을 달성하는 데 어려움을 겪는 경우가 많습니다. 이러한 다양한 모달리티가 진정으로 협업하여 자연스럽고 사실적인 인간형 비디오를 제작할 수 있도록 하는 것은 여전히 어려운 과제로 남아 있습니다.

이를 고려하여,청화대학교와 바이트댄스 지능형 창조 연구소가 공동으로 HuMo 프레임워크를 출시했습니다. HuMo는 텍스트, 참조 이미지, 오디오를 동일한 생성 모델에 통합하고, 점진적인 학습 전략과 시간 적응형 안내 메커니즘을 통해 잡음 제거 단계에서 안내 가중치를 동적으로 조정하는 "협력적 다중 모드 조건 생성" 개념을 제안합니다.캐릭터의 외관과 오디오, 비디오의 일관성을 유지하는 데 획기적인 진전을 이룬 것뿐만 아니라, 영상 생성을 '다단계 스플라이싱'에서 '원스톱 생성'으로 발전시켰습니다.

서류 주소:

https://arxiv.org/abs/2509.08519

원래 창고:

https://github.com/phantom-video/humo

또한 HuMo는 텍스트 추적, 이미지 일관성 등 여러 하위 작업에서 SOTA 수준에 도달했습니다.이 프로젝트는 가볍고, 플레이 가능하며, 전문적이고, 연구하기 쉬운 1.7B와 17B 두 가지 모델을 제공하며, 크리에이터와 개발자의 다양한 요구에 적합합니다. 17B 모델이 생성한 효과를 살펴보겠습니다.

"HuMo-1.7B: 멀티모달 비디오 생성 프레임워크"와 "HuMo-17B: 트라이모달 협업 생성"이 HyperAI 공식 웹사이트(hyper.ai)의 "튜토리얼" 섹션에서 이용 가능합니다. 한번 사용해 보시는 건 어떠세요? 더 많은 정보를 입력하면, 모델이 만족스러운 비디오를 생성할 수 있을까요?

튜토리얼 링크:

HuMo-1.7B:https://go.hyper.ai/BGQT1

HuMo-17B:https://go.hyper.ai/RSYA

데모 실행

1. hyper.ai 홈페이지에서 튜토리얼 페이지를 선택하고 HuMo-1.7B: 멀티모달 비디오 생성 프레임워크를 선택한 후, 이 튜토리얼을 온라인으로 실행을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. NVIDIA GeForce RTX 5090 및 PyTorch 이미지를 선택하고 '계속'을 클릭하세요. OpenBayes 플랫폼은 사용량 기반 결제 또는 일일/주간/월간 요금제 등 네 가지 결제 옵션을 제공합니다. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 5090 4시간과 CPU 사용 시간 5시간을 무료로 이용하실 수 있습니다!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 리소스가 할당될 때까지 기다리세요. 첫 번째 복제에는 약 2분 정도 걸립니다. 상태가 "실행 중"으로 변경되면 "작업 공간 열기"를 클릭하여 데모 페이지로 이동하세요.

효과 시연

데모 페이지에 접속하면 텍스트 상자에 설명을 입력하고, 이미지와 오디오를 업로드하고, 필요에 따라 매개변수를 조정한 후 "비디오 생성"을 클릭하면 비디오가 생성됩니다. (참고: 샘플링 단계를 10으로 설정하면 비디오 생성에 약 3~5분이 소요됩니다.)

예를 생성하세요

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

HuMo-1.7B:https://go.hyper.ai/BGQT1

HuMo-17B:https://go.hyper.ai/RSYA