Command Palette

Search for a command to run...

2ヶ月前

OmniHuman-1.5:認知シミュレーションによるアバターへの能動的思考の植え込み

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

OmniHuman-1.5:認知シミュレーションによるアバターへの能動的思考の植え込み

要約

既存のビデオアバターモデルは、滑らかな人間のアニメーションを生成可能であるものの、外見の類似性にとどまり、キャラクターの本質的な特徴を捉えるには至らない。これらのモデルの動きは、音声のリズムといった低レベルな刺激に同期する傾向があり、感情や意図、文脈といったより深い意味的理解を欠いている。このギャップを埋めるために、物理的に現実的であるだけでなく、意味的に整合性があり、表現力豊かなキャラクターのアニメーションを生成するフレームワークを提案する。本研究で開発したモデル「OmniHuman-1.5」は、2つの主要な技術的貢献に基づいている。第一に、マルチモーダル大規模言語モデル(Multimodal Large Language Models)を活用し、高レベルな意味情報を提供する構造化されたテキスト表現を合成する。この意味的ガイダンスにより、単なるリズム同期にとどまらず、文脈や感情にふさわしい行動を生成することができる。第二に、これらのマルチモーダル入力の効果的な統合を実現し、モダリティ間の矛盾を軽減するため、独自の「疑似最終フレーム(Pseudo Last Frame)」構造を備えたマルチモーダルDiT(Multimodal DiT)アーキテクチャを導入する。この2つの要素の連携により、音声、画像、テキストの統合的な意味を正確に解釈し、キャラクター、シーン、言語的プロンプトと深く整合した動きを生成することが可能となる。広範な実験の結果、本モデルは口パク精度、動画品質、動きの自然さ、テキストプロンプトとの意味的一貫性といった包括的な指標において、最先端の性能を達成していることが示された。さらに、多人数や非人間の被写体を含む複雑なシナリオに対しても、著しい拡張性を示している。公式ページ:https://omnihuman-lab.github.io/v1_5/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています