9日前

エゴセントリック行動予測のためのインタラクション領域視覚変換器

Debaditya Roy, Ramanathan Rajendiran, Basura Fernando
エゴセントリック行動予測のためのインタラクション領域視覚変換器
要約

人間と物体のインタラクションは、視覚的情報において最も重要な手がかりの一つであり、エゴセントリックな行動予測のための新たな人間-物体インタラクション表現手法を提案する。本研究では、行動の実行によって物体および人間の手の外観がどのように変化するかを計算することで、インタラクションをモデル化する新しい変種トランスフォーマーを提案し、その変化量を用いて動画表現を精緻化する。具体的には、空間的クロスアテンション(Spatial Cross-Attention: SCA)を用いて手と物体間のインタラクションをモデル化し、さらに軌道的クロスアテンション(Trajectory Cross-Attention)を導入することで文脈情報を統合し、環境に適合した精緻化されたインタラクショントークンを獲得する。これらのトークンを基に、行動予測に特化したインタラクション中心の動画表現を構築する。本モデルを「InAViT」と命名し、大規模なエゴセントリックデータセットEPICKITCHENS100(EK100)およびEGTEA Gaze+において、最先端の行動予測性能を達成した。InAViTは、物体中心の動画表現を含む他の視覚トランスフォーマーベースの手法を上回り、EK100の評価サーバーにおいて、提出時点での公開リーダーボードでトップの性能を記録。2番目に優れたモデルと比較して、平均top-5リコールで3.3%の優位性を示した。