6ヶ月前

概要

テキスト誘導型人体運動生成は、アニメーションやロボット工学など幅広い応用分野における重要性から、近年注目を集めている。特に、運動生成に拡散モデル（diffusion models）を適用する試みにより、生成される運動の質の向上が実現されている。しかし、従来の手法は比較的小規模なモーションキャプチャデータに依存しており、多様性が高くリアルな状況（in-the-wild）を想定したプロンプトに対しては性能が劣るという課題を抱えている。本論文では、大規模な画像-テキストデータセットから得られる多様なポーズとプロンプトを学習可能な「Make-An-Animation」というテキスト条件付き人体運動生成モデルを提案する。このモデルは、従来の手法に比べて顕著な性能向上を達成する。Make-An-Animationは2段階の訓練プロセスを経る。第一段階では、画像-テキストデータセットから抽出した（テキスト、静的仮想ポーズ）ペアから構成される選別済みの大規模データセットを用いて学習を行う。第二段階では、モーションキャプチャデータ上でファインチューニングを行い、時間的次元をモデル化するための追加層を導入する。従来の運動生成用拡散モデルとは異なり、Make-An-Animationは最近のテキストから動画生成に用いられるU-Netアーキテクチャを採用している。人体運動のリアルさおよび入力テキストとの整合性に関する人間評価において、本モデルはテキストから運動への生成タスクにおいて最先端の性能を達成している。

ソースPDF