2ヶ月前
BiPO: テキストからモーション合成のための双方向部分遮蔽ネットワーク
Hong, Seong-Eun ; Lim, Soobin ; Hwang, Juyeong ; Chang, Minwook ; Kang, Hyeongyeop

要約
テキスト記述から自然で表現力豊かな人間の動きを生成することは、全身のダイナミクスを調整し、与えられたテキストを正確に反映する複雑な動きパターンを長時間にわたって捉える難しさ由於します。この課題に対処するために、私たちはBiPO(Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis)と呼ばれる新しいモデルを導入します。BiPOは、部分に基づく生成と双方向自己回帰アーキテクチャを統合することで、テキストから動きへの合成能力を向上させます。この統合により、BiPOは生成時に過去と未来のコンテクスト双方を考慮しながら、個々の身体部位に対する詳細な制御を強化できます。また、地面真値の動きの長さを必要とせずに動作します。部分間の相互依存関係を緩和するために、私たちはPartial Occlusion技術を開発しました。これは訓練中に特定の動き部分情報を確率的に隠すことで実現されます。私たちが行った包括的な実験では、BiPOはHumanML3Dデータセットにおいて最先端の性能を達成し、ParCo, MoMask, およびBAMMなどの最近の手法よりもFIDスコアや全体的な動き品質において優れています。特に注目すべきは、BiPOがテキストから動きへの生成タスクだけでなく、部分的に生成された動きシーケンスとテキスト記述に基づいて動きを合成する編集タスクでも優れた性能を発揮することです。これらの結果は、BiPOがテキストから動きへの合成技術の進歩に貢献しており、実用的な応用への可能性があることを示しています。