11日前

Fg-T2M:拡散モデルを用いた細粒度テキスト駆動型人体運動生成

Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang
Fg-T2M:拡散モデルを用いた細粒度テキスト駆動型人体運動生成
要約

コンピュータビジョンにおけるテキスト駆動型人間の運動生成は、重要な分野であると同時に、大きな課題を抱えている。しかし、現在の手法は、決定論的または粗雑な運動シーケンスしか生成できず、与えられたテキスト記述に適合するための時間的・空間的関係を効果的に制御することができていない。本研究では、正確なテキスト記述に対応可能な高品質な条件付き人間運動シーケンスを生成するための細粒度な手法を提案する。本手法は、以下の2つの主要な構成要素からなる:1)言語構造を支援するモジュールにより、テキスト情報の完全かつ正確な特徴を構築する;2)浅層および深層のグラフニューラルネットワークから、局所的および全体的な意味的言語特徴を学習し、多段階の推論を実現するコンテキスト認識型段階的推論モジュール。実験の結果、本手法はHumanML3DおよびKITのテストセットにおいて、従来のテキスト駆動型運動生成手法を上回り、テキスト条件に適合した視覚的に確認可能なより優れた運動を生成することが確認された。

Fg-T2M:拡散モデルを用いた細粒度テキスト駆動型人体運動生成 | 最新論文 | HyperAI超神経