Hamba: グラフガイド付きバイスキャンニングを用いた単一視点3D手の再構成 Mamba

単一のRGB画像から3次元手を再構成することは、関節運動、自己遮蔽、および物体との相互作用のため困難です。既存の最先端(SOTA)手法は、3次元手の姿勢と形状を学習するためにアテンションベースのトランスフォーマーを用いていますが、空間的な関節間の関係を効率的にモデル化できないことが主な理由で、完全に堅牢かつ正確な性能を達成できていません。この問題に対処するため、我々はグラフ学習と状態空間モデリングを橋渡す新しいグラフガイドMambaフレームワークであるHambaを提案します。我々の中心的なアイデアは、Mambaのスキャンをグラフガイド双方向スキャンに改めることで、少数の効果的なトークンを使用して3次元再構成を行うことです。これにより、関節間の空間的な関係を効率的に学習し、再構成性能を向上させることができます。具体的には、グラフ構造化された関係と空間的な順序を学習し、アテンションベースの手法よりも88.5%少ないトークンを使用するGraph-guided State Space (GSS)ブロックを設計しました。さらに、我々は融合モジュールを使用して状態空間特徴量と全体特徴量を統合します。GSSブロックと融合モジュールを利用することで、Hambaは効果的にグラフガイド状態空間特徴量を利用し、全体と局所の特徴量を共同で考慮することで性能向上に貢献します。複数のベンチマークや実世界テストでの実験結果は、Hambaが既存のSOTA手法に対して大幅に優れていることを示しており、FreiHANDデータセットではPA-MPVPEが5.3mm、F@15mmが0.992という結果を得ています。本論文受理時点で、Hambaは3次元手再構成に関する2つのコンペティションリーダーボードでトップ位置(Rank 1)となっています。プロジェクトウェブサイト: https://humansensinglab.github.io/Hamba/