@misc{chen2025humo, title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu}, year={2025}, eprint={2509.08519}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.08519}, }

날짜

9달 전

태그

논문 URL

라이선스

Apache 2.0

GitHub

Phantom-video/HuMo1.3k

1. 튜토리얼 소개

HuMo는 칭화대학교와 바이트댄스의 인텔리전트 크리에이션 랩이 공동 개발하여 2025년 9월에 출시한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 초점을 맞추고 있습니다. 텍스트, 이미지, 오디오 등 다양한 모달 입력을 기반으로 고품질의 디테일하고 제어 가능한 사람처럼 자연스러운 비디오를 생성할 수 있습니다. HuMo는 강력한 텍스트 단서 추적 기능, 일관된 피사체 보존, 오디오 기반 동작 동기화 기능을 지원합니다. 또한 텍스트-이미지(VideoGen from Text-Image), 텍스트-오디오(VideoGen from Text-Audio), 텍스트-이미지-오디오(VideoGen from Text-Image-Audio) 입력을 통한 비디오 생성을 지원하여 사용자에게 더욱 폭넓은 맞춤 설정 및 제어 기능을 제공합니다. 관련 연구 논문은 별도로 제공됩니다. HuMo: 협업적 다중 모달 컨디셔닝을 통한 인간 중심 비디오 생성 .

HuMo 프로젝트는 1.7B와 17B의 두 가지 사양으로 모델 배포를 제공합니다. 이 튜토리얼에서는 1.7B 모델과 단일 RTX 5090 카드를 리소스로 사용합니다.

2. 프로젝트 예시

Text-Image-Audio,TIA의 VideoGen

Text-Audio,TA의 VideoGen

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다. 참고: 샘플링 단계를 10으로 설정하면 결과를 생성하는 데 약 3~5분이 걸립니다.

텍스트-이미지-오디오(TIA)의 VideoGen

Text-Audio(TA)의 VideoGen

매개변수 설명

높이: 비디오의 높이를 설정합니다.
너비: 비디오의 너비를 설정합니다.
프레임: 비디오 프레임 수를 설정합니다.
텍스트 안내 스케일: 텍스트 안내 스케일은 비디오 생성에 대한 텍스트 프롬프트의 영향을 제어하는 데 사용됩니다.
이미지 유도 스케일: 이미지 유도 스케일링은 비디오 생성에 대한 이미지 신호의 영향을 제어하는 데 사용됩니다.
오디오 안내 척도: 오디오 안내 척도로, 비디오 생성에 대한 오디오 신호의 영향을 제어하는 데 사용됩니다.
샘플링 단계: 생성된 비디오의 품질과 세부 정보를 제어하는 데 사용되는 샘플링 단계 수입니다.

4. 토론

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{chen2025humo,
      title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, 
      author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
      year={2025},
      eprint={2509.08519},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.08519}, 
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

주요 프레임워크 가이드 생성형 AI 컴퓨터 비전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

HuMo-1.7B: 다중 모달 비디오 생성을 위한 프레임워크

1. 튜토리얼 소개

2. 프로젝트 예시

Text-Image-Audio,TIA의 VideoGen

Text-Audio,TA의 VideoGen

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

텍스트-이미지-오디오(TIA)의 VideoGen

Text-Audio(TA)의 VideoGen

4. 토론

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

HuMo-1.7B: 다중 모달 비디오 생성을 위한 프레임워크

1. 튜토리얼 소개

2. 프로젝트 예시

Text-Image-Audio,TIA의 VideoGen

Text-Audio,TA의 VideoGen

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

텍스트-이미지-오디오(TIA)의 VideoGen

Text-Audio(TA)의 VideoGen

4. 토론

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

HuMo-1.7B: 다중 모달 비디오 생성을 위한 프레임워크

1. 튜토리얼 소개

2. 프로젝트 예시

Text-Image-Audio,TIA의 VideoGen

Text-Audio,TA의 VideoGen

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

텍스트-이미지-오디오(TIA)의 VideoGen

Text-Audio(TA)의 VideoGen

4. 토론

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters