
要約
3次元手-物体姿推定は、多くのコンピュータビジョン応用の成功の鍵となります。このタスクの主な焦点は、手と物体との間の相互作用を効果的にモデル化することにあります。これまでは、既存の研究が計算量の多い反復最適化における相互作用制約に依存するか、またはサンプリングされた手と物体のキーポイント間の疎な相関のみを考慮していました。対照的に、我々は新たな稠密相互注意メカニズムを提案します。これは、手と物体との間の微細な依存関係をモデル化することができます。具体的には、まず手と物体のグラフをそのメッシュ構造に基づいて構築します。各手ノードに対して、学習した注意によりすべての物体ノードから特徴量を集約し、逆に各物体ノードに対しても同様に行います。このような稠密相互注意のおかげで、当手法は物理的に妥当な高品質な姿勢を生成し、リアルタイムでの推論速度も実現しています。大規模ベンチマークデータセットに対する広範な定量的および定性的実験により、当手法が最先端手法を上回ることが示されています。コードは https://github.com/rongakowang/DenseMutualAttention.git で公開されています。