A2J-Transformer:単一RGB画像からの3次元相互作用する手の姿勢推定を 위한アンカーからジョイントへの変換ネットワーク

単一のRGB画像から3次元相互作用する両手のポーズを推定することは、手の自己遮蔽や相互遮蔽が著しく、両手の外見パターンが類似しており、2次元から3次元への関節位置マッピングが不適切(ill-posed)であるなどの理由から、非常に困難な課題である。本研究では、最先端の深度ベース3次元単一手ポーズ推定手法であるA2Jを、相互作用する手を対象としたRGBドメインへ拡張する手法を提案する。本手法の核心的なアイデアは、A2Jに強力な局所-グローバルな注意能力を付与し、相互作用する手の局所的な細部情報と関節間のグローバルなアーティキュレートな構造的特徴を同時に捉えられるようにすることにある。これを実現するため、Transformerの非局所エンコーディング・デコーディングフレームワークに基づき、A2Jを進化させたA2J-Transformerを構築した。このA2J-Transformerは、A2Jに対して以下の3つの主要な利点を有している。第一に、局所的なアンカー点間における自己注意機構(self-attention)を構築することで、各アンカー点がグローバルな空間的文脈を認識できるようになり、遮蔽に強い関節のアーティキュレーション構造を捉える能力が向上する。第二に、各アンカー点を学習可能なクエリとして扱い、適応的な特徴学習を可能にすることで、他のアンカー点と同一の局所表現を持つことなく、パターン適合能力を強化する。第三に、A2Jが2次元空間に位置するアンカー点を用いるのに対し、A2J-Transformerではアンカー点を3次元空間に配置することで、3次元ポーズ推定の利点を有効に活用できる。困難なInterHand 2.6Mデータセットにおける実験結果から、A2J-Transformerはモデルフリーな設定において最先端の性能を達成しており(両手ケースにおいてMPJPEが3.38mm改善)、さらに深度ドメインへの適用も可能であり、優れた汎化能力を示した。