11日前
se(3)-TrackNet:合成ドメインにおける画像残差のキャリブレーションを用いたデータ駆動型6Dポーズトラッキング
Bowen Wen, Chaitanya Mitash, Baozhang Ren, Kostas E. Bekris

要約
ビデオシーケンスにおける物体の6次元(6D)姿勢を追跡することは、ロボット操作において極めて重要である。しかしながら、このタスクには以下の複数の課題が伴う。(i)ロボット操作では物体が大きく遮蔽されることが多く、(ii)6D姿勢のデータとアノテーションを収集することは困難で手間がかかるため、機械学習に基づくアプローチの開発が複雑化する。(iii)長期追跡においては誤差の累積(インクリメンタルな誤差ドリフト)が生じやすく、物体の姿勢を再初期化する必要が生じる。本研究では、長期にわたる6D姿勢追跡を実現するデータ駆動型最適化手法を提案する。本手法は、現在のRGB-D観測と、過去の最良推定値および物体モデルに基づいて生成された合成画像を用いて、最適な相対姿勢を推定することを目的としている。本研究の主な貢献は、ドメインシフトを低減するための適切な特徴符号化の分離を可能にする新規なニューラルネットワークアーキテクチャの設計、およびリー代数を用いた効果的な3D回転表現の導入である。その結果、合成データのみで学習されたネットワークであっても、実画像に対して高い性能を発揮することが可能となった。既存のベンチマークおよび物体操作に特有の大きな遮蔽を含む新しいデータセットを用いた包括的な実験により、本手法が一貫して頑健な推定結果を達成し、実画像で学習された他の手法をも上回ることが示された。さらに、比較対象の中で最も計算効率が高く、90.9Hzの追跡頻度を達成している。