11日前
AttT2M:マルチパースペクティブ注意力機構を用いたテキスト駆動型人体運動生成
Chongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia

要約
近年、テキスト記述に基づいた3D人体運動の生成は、研究の焦点となっている。このタスクでは、生成された運動が多様性と自然さを備えつつ、テキスト記述に正確に適合していることが求められる。しかし、人体運動の持つ複雑な時空間的性質と、テキストと運動の間のクロスモーダル関係を学習する困難さのため、テキスト駆動型運動生成は依然として大きな課題である。本研究では、これらの課題に対処するため、二段階型の手法であるAttT2Mを提案する。本手法は、部位別アテンションとグローバル・ローカル運動-テキストアテンションという二つの視点から構成されるマルチパースペクティブアテンション機構を採用している。前者は運動埋め込みの観点から、VQ-VAEに部位別時空間エンコーダを導入することで、より表現力豊かな離散潜在空間を学習することを目的とする。後者はクロスモーダルの観点から、文レベルおよび語レベルにおける運動とテキストの関係を学習する。最終的に、生成型Transformerを用いてテキスト駆動型の運動を生成する。HumanML3DおよびKIT-MLの実験により、本手法が定量的・定性的評価において現在の最先端手法を上回ることを実証した。また、細粒度な合成とアクション2モーションの生成も達成している。本研究のコードは、https://github.com/ZcyMonkey/AttT2M にて公開されている。