6ヶ月前

テキストから動画

マルチモーダル

マルチモーダル

コンピュータビジョン

Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang Heung-Yeung Shum

概要

本研究は、与えられたテキスト記述を入力として、高品質で多様かつ一貫性のある表情、手の動き、体の運動を同時に生成することを目的とした、新たなテキスト駆動型全身運動生成タスクに焦点を当てている。これまでのテキスト駆動型運動生成に関する先行研究には、主に2つの課題が存在する。第一に、生々しい全身運動生成において、細粒度な手および顔の制御が果たす重要な役割を無視している点であり、第二に、テキストと運動の間の良好な整合性が欠けている点である。これらの課題を解決するために、本研究では、本分野において初めての実用的な包括的運動生成を実現する試みとして、テキスト整合型全身運動生成フレームワーク「HumanTOMATO」を提案する。この挑戦的なタスクに対応するため、我々のアプローチには以下の2つの鍵となる設計が含まれる。（1）2つの構造化コードブックを用いた細粒度な身体および手の運動再構成・生成を実現するための包括的階層型VQ-VAE（略称：H $^2$ VQ）と階層型GPT；（2）事前学習済みのテキスト-運動整合モデルを導入し、生成された運動が入力テキストと明示的に整合するように支援する。広範な実験により、本モデルが生成運動の品質およびテキストとの整合性において、顕著な優位性を有することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

テキストから動画

マルチモーダル

マルチモーダル

コンピュータビジョン

Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang Heung-Yeung Shum

概要

本研究は、与えられたテキスト記述を入力として、高品質で多様かつ一貫性のある表情、手の動き、体の運動を同時に生成することを目的とした、新たなテキスト駆動型全身運動生成タスクに焦点を当てている。これまでのテキスト駆動型運動生成に関する先行研究には、主に2つの課題が存在する。第一に、生々しい全身運動生成において、細粒度な手および顔の制御が果たす重要な役割を無視している点であり、第二に、テキストと運動の間の良好な整合性が欠けている点である。これらの課題を解決するために、本研究では、本分野において初めての実用的な包括的運動生成を実現する試みとして、テキスト整合型全身運動生成フレームワーク「HumanTOMATO」を提案する。この挑戦的なタスクに対応するため、我々のアプローチには以下の2つの鍵となる設計が含まれる。（1）2つの構造化コードブックを用いた細粒度な身体および手の運動再構成・生成を実現するための包括的階層型VQ-VAE（略称：H $^2$ VQ）と階層型GPT；（2）事前学習済みのテキスト-運動整合モデルを導入し、生成された運動が入力テキストと明示的に整合するように支援する。広範な実験により、本モデルが生成運動の品質およびテキストとの整合性において、顕著な優位性を有することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています