16日前

動きの合成のためのパッチ化された骨格を備えた統一されたマスク自動符号化器

Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee
動きの合成のためのパッチ化された骨格を備えた統一されたマスク自動符号化器
要約

人間の運動合成は従来、特定の課題に特化したタスク依存型モデルによって扱われてきました。具体的には、将来の運動を予測する、あるいは既知のキーポーズを条件として中間ポーズを補完するといった課題が対象でした。本論文では、統一されたアーキテクチャを用いてこれらの課題を効果的に解決できる、新たなタスク非依存型モデル「UNIMASK-M」を提案します。本モデルは、各分野において最新の手法と同等または優れた性能を達成しています。視覚変換器(Vision Transformers: ViTs)に着想を得て、UNIMASK-Mは人間のポーズを身体部位に分解することで、運動に内在する空間時間的関係性を活用しています。さらに、さまざまなポーズ条件付き運動合成タスクを、入力として異なるマスキングパターンを与える再構成問題に再定式化しました。マスクされた関節を明示的にモデルに伝えることで、UNIMASK-Mは遮蔽(オクルージョン)に対してよりロバストな性能を発揮します。実験の結果、Human3.6Mデータセット上で人間の運動を正確に予測できることを確認しました。また、LaFAN1データセットにおける運動の中間生成(inbetweening)においても、特に長時間の遷移期間において最新の成果を達成しました。詳細情報はプロジェクトウェブサイト(https://evm7.github.io/UNIMASKM-page/)をご覧ください。

動きの合成のためのパッチ化された骨格を備えた統一されたマスク自動符号化器 | 最新論文 | HyperAI超神経