Command Palette
Search for a command to run...
HuMo-1.7B: 다중 모달 비디오 생성을 위한 프레임워크
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

HuMo는 칭화대학교와 바이트댄스의 인텔리전트 크리에이션 랩이 공동 개발하여 2025년 9월에 출시한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 초점을 맞추고 있습니다. 텍스트, 이미지, 오디오 등 다양한 모달 입력을 기반으로 고품질의 디테일하고 제어 가능한 사람처럼 자연스러운 비디오를 생성할 수 있습니다. HuMo는 강력한 텍스트 단서 추적 기능, 일관된 피사체 보존, 오디오 기반 동작 동기화 기능을 지원합니다. 또한 텍스트-이미지(VideoGen from Text-Image), 텍스트-오디오(VideoGen from Text-Audio), 텍스트-이미지-오디오(VideoGen from Text-Image-Audio) 입력을 통한 비디오 생성을 지원하여 사용자에게 더욱 폭넓은 맞춤 설정 및 제어 기능을 제공합니다. 관련 연구 논문은 별도로 제공됩니다. HuMo: 협업적 다중 모달 컨디셔닝을 통한 인간 중심 비디오 생성 .
HuMo 프로젝트는 1.7B와 17B의 두 가지 사양으로 모델 배포를 제공합니다. 이 튜토리얼에서는 1.7B 모델과 단일 RTX 5090 카드를 리소스로 사용합니다.
2. 프로젝트 예시
Text-Image-Audio,TIA의 VideoGen

Text-Audio,TA의 VideoGen

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다. 참고: 샘플링 단계를 10으로 설정하면 결과를 생성하는 데 약 3~5분이 걸립니다.
텍스트-이미지-오디오(TIA)의 VideoGen

Text-Audio(TA)의 VideoGen

매개변수 설명
- 높이: 비디오의 높이를 설정합니다.
- 너비: 비디오의 너비를 설정합니다.
- 프레임: 비디오 프레임 수를 설정합니다.
- 텍스트 안내 스케일: 텍스트 안내 스케일은 비디오 생성에 대한 텍스트 프롬프트의 영향을 제어하는 데 사용됩니다.
- 이미지 유도 스케일: 이미지 유도 스케일링은 비디오 생성에 대한 이미지 신호의 영향을 제어하는 데 사용됩니다.
- 오디오 안내 척도: 오디오 안내 척도로, 비디오 생성에 대한 오디오 신호의 영향을 제어하는 데 사용됩니다.
- 샘플링 단계: 생성된 비디오의 품질과 세부 정보를 제어하는 데 사용되는 샘플링 단계 수입니다.
4. 토론
인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@misc{chen2025humo,
title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning},
author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
year={2025},
eprint={2509.08519},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2509.08519},
}