11日前
Transformerを用いたシングルショットモーションコンプリート
Yinglin Duan, Tianyang Shi, Zhengxia Zou, Yenan Lin, Zhehui Qian, Bohan Zhang, Yi Yuan

要約
モーションコンプリートは、映画やゲーム分野において極めて重要な意義を持つが、依然として困難で長年議論されてきた問題である。異なるモーションコンプリートのシナリオ(インバーティング、インフィルティング、ブレンド)に対して、従来の大多数の手法は個別に設計されたアプローチに依存していた。本研究では、統一されたフレームワークの下で複数のモーションコンプリート問題を解決する、シンプルでありながら効果的な手法を提案する。この手法は、複数の評価設定において新たな最先端の精度を達成した。最近のアテンションベースモデルの著しい成功に着想を得て、我々はモーションコンプリートをシーケンスからシーケンスへの予測問題として捉えた。本手法は、入力モーションの長距離依存関係を学習する標準的なトランスフォーマー・エンコーダ(自己アテンションを搭載)と、時系列情報をモデル化し、キーフレームを識別するトレーナブルなミクスチャーエンベディングモジュールの2つのモジュールから構成される。本手法は非自己回帰(non-autoregressive)な動作が可能であり、1回の順伝播(forward propagation)で複数の欠落フレームをリアルタイムで予測できる。最後に、本手法の有効性を音楽とダンスの応用シーンにおいて実証した。