8日前

エピポーラトランスフォーマー

Yihui He, Rui Yan, Katerina Fragkiadaki, Shoou-I Yu
エピポーラトランスフォーマー
要約

同期かつキャリブレーションされた多視点設定において3次元人体関節を局所化する一般的なアプローチは、以下の2段階から構成される:(1)各視点に対して個別に2次元検出器を適用し、2次元空間における関節位置を推定する。そして(2)各視点からの2次元検出結果を用いてロバストなトリアングレーションを行い、3次元関節位置を取得する。しかし、第1段階において2次元検出器は、3次元空間での情報を利用せずに2次元空間内だけで処理を行うため、遮蔽や斜め視点といった困難な状況を十分に扱えず、それらの問題は3次元的な視点からの方がより適切に解決できる可能性がある。そこで本研究では、2次元検出器が3次元に意識的な特徴(3D-aware features)を活用して2次元ポーズ推定を向上させることが可能な「微分可能なエピポーラトランスフォーマー(differentiable epipolar transformer)」を提案する。その基本的なアイデアは、現在の視点における2次元位置 ( p ) に対して、隣接視点における対応する点 ( p' ) をまず特定し、その後 ( p' ) における特徴と ( p ) における特徴を統合することで、位置 ( p ) に対して3次元に意識的な特徴を生成することにある。ステレオマッチングのアイデアを踏まえ、エピポーラトランスフォーマーはエピポーラ制約と特徴マッチングを用いて、点 ( p' ) における特徴を近似的に推定する。InterHandおよびHuman3.6Mにおける実験結果から、本手法がベースラインに対して一貫した性能向上を示すことが確認された。特に外部データを一切使用しない設定下において、ResNet-50をバックボーンとし、入力画像サイズを256×256としたHuman3.6Mモデルは、最先端手法を4.23 mm優れ、MPJPE(平均3次元関節位置誤差)で26.9 mmを達成した。

エピポーラトランスフォーマー | 最新論文 | HyperAI超神経