TM2T: 3Dヒューマンモーションとテキストの相互生成のための確率的およびトークン化モデリング

視覚と言語の強い関連性に着想を得て、これら二つの密接な人間の感覚とコミュニケーションモダリティを基に、本論文ではテキストから3次元の人間全身動作を生成する方法およびその逆のタスク、すなわちtext2motion(テキストからモーション)とmotion2text(モーションからテキスト)について探求します。既存の課題に対処するために、特に同じテキストから複数の異なる動作を生成可能にするため、また単調で動きのないポーズシーケンスが生成されることを避けるために、離散的かつコンパクトな動作表現である「モーショントークン」の使用を提案します。これにより、動作とテキスト信号双方を考える際の一貫した基盤が提供され、「モーショントークン」と「テキストトークン」がそれぞれ対応付けられます。さらに、当研究ではtext2motionトレーニングパイプラインの逆アライメントプロセスにmotion2textモジュールを統合しており、合成されたテキストが入力テキストから大きく逸脱すると大きなトレーニング損失が発生することによって性能向上が実証されています。最後に、これらの二つのモダリティ間でのマッピングは、機械翻訳(NMT)用ニューラルモデルを当研究の文脈に適応させることで促進されます。この離散的な「モーショントークン」分布に対する自己回帰モデリングは、入力テキストから可変長の非決定的なポーズシーケンス生成を可能にします。当手法は柔軟性があり、text2motionおよびmotion2text両方のタスクに適用できます。二つのベンチマークデータセットにおける実験評価では、当手法が様々な最先端手法に対して両方のタスクにおいて優れた性能を示していることが確認されました。プロジェクトページ: https://ericguo5513.github.io/TM2T/