1. チュートリアルの概要

HuMoは、清華大学とByteDanceのインテリジェントクリエーションラボが2025年9月に発表した、人間中心の動画生成に重点を置いたマルチモーダル動画生成フレームワークです。テキスト、画像、音声など、複数のモーダル入力から、高品質で精細、かつ制御可能な人間のような動画を生成できます。HuMoは、強力なテキストキュー追従機能、一貫した被写体保持機能、音声駆動によるモーション同期機能を備えています。テキスト-画像（Text-ImageからVideoGen）、テキスト-音声（Text-AudioからVideoGen）、テキスト-画像-音声（Text-Image-AudioからVideoGen）からの動画生成をサポートしています。関連研究論文も公開されています。 HuMo: 協調的マルチモーダルコンディショニングによる人間中心のビデオ生成。

HuMoプロジェクトは、1.7Bと17Bの2つの仕様でモデルデプロイメントを提供しています。このチュートリアルでは、17Bモデルと1枚のRTX Pro 6000カードをリソースとして使用します。

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。 注: サンプリングステップを 10 に設定すると、結果の生成に約 3 ～ 5 分かかります。

TIA

パラメータの説明

高さ: ビデオの高さを設定します。

幅: ビデオの幅を設定します。

フレーム: ビデオフレームの数を設定します。

テキストガイダンススケール: テキストガイダンスのスケーリング。ビデオ生成時のテキストプロンプトの影響を制御するために使用されます。

画像ガイダンススケール: 画像ガイダンスのスケーリング。ビデオ生成における画像キューの影響を制御するために使用されます。

オーディオガイダンススケール: オーディオキューがビデオ生成に与える影響を制御するために使用されるオーディオガイダンススケーリング。

サンプリングステップ: 生成されたビデオの品質と詳細を制御するために使用されるサンプリングステップの数。

ランダムシード: ビデオ生成のランダム性を制御するために使用されるランダムシード。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{chen2025humo, title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu}, year={2025}, eprint={2509.08519}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.08519}, }

HyperAI

このNotebookを実行 Discordで議論

日付

5ヶ月前

タグ

マルチモーダル

論文URL

2509.08519

ライセンス

Apache 2.0

GitHub

Phantom-video/HuMo

1. チュートリアルの概要

HuMoプロジェクトは、1.7Bと17Bの2つの仕様でモデルデプロイメントを提供しています。このチュートリアルでは、17Bモデルと1枚のRTX Pro 6000カードをリソースとして使用します。

→ クリックして体験へジャンプHuMo 1.7B: マルチモーダルビデオ生成のためのフレームワーク”。

2. プロジェクト例

テキスト・画像・音声、TIAからのVideoGen

Text-Audio、TA の VideoGen

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。 注: サンプリングステップを 10 に設定すると、結果の生成に約 3 ～ 5 分かかります。

TIA

TA

パラメータの説明

高さ: ビデオの高さを設定します。
幅: ビデオの幅を設定します。
フレーム: ビデオフレームの数を設定します。
テキストガイダンススケール: テキストガイダンスのスケーリング。ビデオ生成時のテキストプロンプトの影響を制御するために使用されます。
画像ガイダンススケール: 画像ガイダンスのスケーリング。ビデオ生成における画像キューの影響を制御するために使用されます。
オーディオガイダンススケール: オーディオキューがビデオ生成に与える影響を制御するために使用されるオーディオガイダンススケーリング。
サンプリングステップ: 生成されたビデオの品質と詳細を制御するために使用されるサンプリングステップの数。
ランダムシード: ビデオ生成のランダム性を制御するために使用されるランダムシード。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{chen2025humo,
      title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, 
      author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
      year={2025},
      eprint={2509.08519},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.08519}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Command Palette

HuMo-17B: 三峰性協創

1. チュートリアルの概要

2. プロジェクト例

テキスト・画像・音声、TIAからのVideoGen

Text-Audio、TA の VideoGen

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

TIA

TA

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

HuMo-17B: 三峰性協創

1. チュートリアルの概要

2. プロジェクト例

テキスト・画像・音声、TIAからのVideoGen

Text-Audio、TA の VideoGen

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

TIA

TA

引用情報

関連ノートブック

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

MOSS: テキスト音声対話生成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

MAGE: モノクローナル抗体遺伝子ジェネレータ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

Qwen-Image-Lightningのワンクリック展開

GLM-ASR-Nanoインテリジェント音声認識

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

kyutai-tts-1.6 b-en_fr オーディオ生成

JarvisArt-プレビュー スマート写真レタッチプロキシ

HunyuanWorld-1.0: 3Dワールド生成モデル

n8n-workflows: ワークフローのコレクション

テンセント・フンユアンビデオ・フォーリー

安定拡散オンラインチュートリアル - RTX5090

vLLM + Open WebUIを使用してApril-1.5-15b-Thinkerをデプロイする

Long-VITA: 数百万のトークンを使ったマルチモーダル理解デモ

Fara-7B: 非常に効率的なWebベースのインテリジェントエージェントモデル

AIでAIを構築

HyperAI Newsletters

Command Palette

HuMo-17B: 三峰性協創

1. チュートリアルの概要

2. プロジェクト例

テキスト・画像・音声、TIAからのVideoGen

Text-Audio、TA の VideoGen

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

TIA

TA

引用情報

関連ノートブック

Microsoftのオープンソースドキュメント変換ツール、MarkItDown

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

MOSS: テキスト音声対話生成

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

MAGE: モノクローナル抗体遺伝子ジェネレータ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

Qwen-Image-Lightningのワンクリック展開

GLM-ASR-Nanoインテリジェント音声認識

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

kyutai-tts-1.6 b-en_fr オーディオ生成

JarvisArt-プレビュー スマート写真レタッチプロキシ

HunyuanWorld-1.0: 3Dワールド生成モデル

n8n-workflows: ワークフローのコレクション

テンセント・フンユアンビデオ・フォーリー

安定拡散オンラインチュートリアル - RTX5090

vLLM + Open WebUIを使用してApril-1.5-15b-Thinkerをデプロイする

JarvisArt-プレビュースマート写真レタッチプロキシ

JarvisArt-プレビュースマート写真レタッチプロキシ

JarvisArt-プレビュースマート写真レタッチプロキシ

JarvisArt-プレビュースマート写真レタッチプロキシ