16日前
TransFusion:3次元人体運動予測のための実用的かつ効果的なTransformerベースの拡散モデル
Sibo Tian, Minghui Zheng, Xiao Liang

要約
今後のスマート再製造システムにおける人間とロボットの密接な協働を安全かつ効果的に行うためには、人間の運動を予測することが極めて重要である。既存の研究は、主に2つのグループに分類される。一つは予測精度に注力し、未来の運動を単一のシーケンスとして予測するアプローチであり、もう一つは観測データに基づいて多様な予測を生成するアプローチである。前者は人間の運動が持つ不確実性や多モーダル性を十分に捉えておらず、後者では予測された運動シーケンスが真実(グランドトゥース)から大きく逸脱したり、過去の文脈と整合性を失って現実的でなくなる傾向がある。これらの課題に対処するため、本研究では、より現実的に起こり得る運動を生成しつつ、一定の多様性を維持できる、革新的かつ実用的な3D人間運動予測用拡散モデル「TransFusion」を提案する。本モデルは、浅層と深層の間を結ぶ長いスキップ接続を備えたTransformerをベースとし、運動シーケンスを周波数空間でモデリングするために離散コサイン変換(DCT)を採用することで、性能の向上を実現している。従来の拡散モデルが過去の観測運動を条件付けるためにクロスアテンションや適応的レイヤーナルムライゼーションといった追加モジュールを用いるのに対し、本研究ではすべての入力(条件を含む)をトークンとして扱うことで、既存手法に比べてより軽量なモデル構造を実現している。提案モデルの有効性は、標準ベンチマークデータセットを用いた広範な実験により検証された。