
要約
ビデオシーケンスにおける物体の6次元姿勢追跡は、ロボット操作において重要な役割を果たします。しかし、これまでの多くの研究では、対象物体のCADモデル(少なくともカテゴリレベルで)がオフライン学習やオンラインテンプレートマッチングに利用可能であると仮定しています。本研究では、そのような3Dモデルに依存せずに新しい物体の6次元姿勢を追跡する一般的なフレームワーク「BundleTrack」を提案します。このフレームワークは、深層学習によるセグメンテーションと堅牢な特徴抽出の最近の進歩を活用し、またメモリ拡張型姿勢グラフ最適化によって空間時間的一貫性を確保します。これにより、大幅な遮蔽や物体運動などの様々な困難な状況下でも、長期的に低ドリフトでの追跡が可能になります。2つの公開ベンチマークを使用した包括的な実験結果は、提案手法が既存のカテゴリレベル6次元追跡や動的SLAM手法よりも著しく優れていることを示しています。また、対象物体インスタンスのCADモデルに依存する最先端手法と比較しても、情報要件が少ないにもかかわらず同等の性能を達成しています。CUDAによる効率的な実装により、全体的なフレームワークで10Hzのリアルタイム性能が得られています。コードは以下のURLから入手可能です:https://github.com/wenbowen123/BundleTrack