11日前

GDRNPP:ジオメトリーファイルド・フルリーニングベースのオブジェクトポーズ推定器

Xingyu Liu, Ruida Zhang, Chenyangguang Zhang, Gu Wang, Jiwen Tang, Zhigang Li, Xiangyang Ji
GDRNPP:ジオメトリーファイルド・フルリーニングベースのオブジェクトポーズ推定器
要約

剛体物体の6次元姿勢推定(6D pose estimation)は、コンピュータビジョン分野における長年にわたる課題であり、高い難易度を有する。近年、ディープラーニングの登場により、畳み込みニューラルネットワーク(CNN)が信頼性の高い6D姿勢を予測する可能性が示された。しかし、現在の直接姿勢回帰ネットワークはまだ最適な性能を発揮できていないため、多くの手法は依然として不同程度で従来の技術に依存している。例えば、トップパフォーマンスを発揮する手法は、しばしば間接的な戦略を採用しており、まず2D-3Dまたは3D-3D対応点を構築した後、RANSACベースのPnPやKabsch法を適用し、さらにICP(Iterative Closest Point)を用いて精度を向上させる。これらのアプローチは性能の向上をもたらすものの、従来技術の統合によりネットワークの処理時間が長くなり、エンドツーエンドでの学習が困難となるという課題がある。本研究は、こうした従来手法とは異なり、完全に学習ベースのオブジェクト姿勢推定器を提案する。本研究では、まず直接法と間接法の両方を包括的に検証し、単純ながら効果的な幾何学的ガイド付き直接回帰ネットワーク(Geometry-guided Direct Regression Network, GDRN)を提案する。このGDRNは、モノクロラル画像からエンドツーエンドで6D姿勢を学習可能である。さらに、追加の深度データが利用可能な場合に姿勢精度を向上させるため、幾何学的ガイド付き姿勢精調モジュールを導入する。予測された座標マップを基に、観測されたRGB-D画像とレンダリングされたRGB-D画像の間で堅牢かつ正確な3D-3D対応点を構築する、エンドツーエンド微分可能なアーキテクチャを構築した。この強化された姿勢推定パイプライン「GDRNPP(GDRN Plus Plus)」は、2年連続でBOP Challengeのリーダーボードを制覇し、従来技術に依拠するすべての先行手法を、精度と速度の両面で上回った最初の手法となった。コードおよびモデルは、https://github.com/shanice-l/gdrnpp_bop2022 にて公開されている。

GDRNPP:ジオメトリーファイルド・フルリーニングベースのオブジェクトポーズ推定器 | 最新論文 | HyperAI超神経