13日前
EfficientPose:効率的で高精度かつスケーラブルなエンドツーエンド型6Dマルチオブジェクトポーズ推定手法
Yannick Bukschat, Marcus Vetter

要約
本稿では、6次元物体姿勢推定のための新規アプローチであるEfficientPoseを紹介する。本手法は、高い精度、効率性、および広範な計算リソースにおいてスケーラブルな特性を備えており、複数の物体およびインスタンスの2次元バウンディングボックスを検出しつつ、それらの完全な6次元姿勢を1回の推論(シングルショット)で推定できる。これにより、従来手法が複数物体処理時に顕著に増加する実行時間の問題を解消する。従来手法は、まず2次元のターゲット(例えばキーポイント)を検出し、その後それぞれの物体についてPnP(Perspective-n-Point)問題を解くことで6次元姿勢を推定するという二段階アプローチを採用している。本研究では、直接6次元姿勢推定に向けた新たな増強手法である「6D増強(6D augmentation)」を提案し、性能と汎化能力の向上を実現した。RGB入力のみを用いた場合、広く用いられている6次元姿勢推定ベンチマークデータセットLinemodにおいて、ADD(-S)指標で97.35%という新たな最先端(state-of-the-art)の精度を達成した一方で、エンドツーエンドで27FPS以上で実行可能である。複数物体(最大8物体)の処理においても、2D物体検出と6次元姿勢推定を統合したシングルショットアプローチにより、エンドツーエンドで26FPS以上を維持するため、実世界の多くの応用シーンにおいて極めて魅力的な性能を発揮する。実装コードは、https://github.com/ybkscht/EfficientPose にて公開される予定である。