2ヶ月前

InterMask: 協調マスクモデルを用いた3Dヒューマンインタラクション生成

Javed, Muhammad Gohar ; Guo, Chuan ; Cheng, Li ; Li, Xingyu

要約

テキスト記述から現実的な3Dの人間相互作用を生成することは、依然として困難な課題である。既存の手法は、通常、拡散モデルに基づいており、しばしば現実感や忠実度に欠ける結果を生み出す。本研究では、離散空間での協調的なマスクモデリングを使用して人間の相互作用を生成する新しいフレームワーク「InterMask」を提案する。InterMaskはまず、各動作シーケンスを2D離散動作トークンマップに変換するためにVQ-VAE（Vector Quantized Variational Autoencoder）を利用する。伝統的な1D VQトークンマップとは異なり、これにより細かい空間時間詳細がよりよく保たれ、各トークン内の空間認識が促進される。この表現に基づき、InterMaskは生成用のマスクモデリングフレームワークを利用して、2人の相互作用する個人のトークンを協調的にモデル化する。これは、複雑な空間時間依存関係を捉えるために特別に設計されたトランスフォーマー構造を使用して達成される。学習中には、両方の個人の動作トークンをランダムにマスクし、それらを予測することを学ぶ。推論時には完全にマスクされたシーケンスから始め、両方の個人のトークンを段階的に埋めていく。強化された動作表現、専用のアーキテクチャ、および効果的な学習戦略により、InterMaskは最先端の成果を達成し、高忠実度かつ多様な人間相互作用を生成する。InterHumanデータセットではFID（Fréchet Inception Distance）が$5.154$（in2INの$5.535$に対して）であり、InterXデータセットではFIDが$0.399$（InterGenの$5.207$に対して）と、従来の方法よりも優れた性能を示している。さらに、InterMaskはモデル再設計や微調整なしで反応生成も円滑に行うことができる。注：FID (Fréchet Inception Distance) は画像生成モデルの品質評価指標であり、「Fréchet Inception Distance」という原文表記も併記しました。