11日前
in2IN:個別情報を活用した人間相互作用の生成
Pablo Ruiz Ponce, German Barquero, Cristina Palmero, Sergio Escalera, Jose Garcia-Rodriguez

要約
テキスト記述に基づいて人間同士の運動インタラクションを生成することは、ロボティクス、ゲーム、アニメーション、メタバースなど多くの分野において非常に有用な応用である。しかしながら、このタスクは人間同士の高次元な相互作用ダイナミクスを正確にモデリングするという大きな課題を伴う。さらに、インタラクションにおける個々人の内発的多様性(intra-personal diversity)を適切に捉えることにも多くの困難が存在する。現在の手法は、利用可能なデータセットや条件付け戦略の制限により、個々人の運動ダイナミクスの多様性が限定的である。こうした問題に対応するため、本研究では「in2IN」と呼ばれる新たな拡散モデルを提案する。このモデルは、インタラクション全体のテキスト記述に加え、参加する各個人が行う行動の個別的な記述も条件として用いることで、より豊かな人間同士の運動生成を実現する。in2INの学習には、大規模言語モデル(LLM)を活用し、InterHumanデータセットに個人ごとの行動記述を拡張した。その結果、in2INはInterHumanデータセットにおいて最先端の性能を達成した。さらに、既存のインタラクションデータセットにおける個別的多様性を高めるために、本研究では「DualMDM」というモデル構成手法を提案する。DualMDMは、in2INによって生成された運動と、HumanML3D上で事前学習された単一人物用運動事前モデルによって生成された運動を組み合わせることで、より高い個人的多様性を持つ運動を生成し、人間同士の相互作用の整合性を保ちつつ、個々人の運動ダイナミクスに対する制御力を向上させた。