要約
MaskedFusionは、RGB-Dデータを使用して物体の6次元姿勢を推定するためのフレームワークであり、複数のサブタスクをパイプラインで活用することで正確な6次元姿勢を達成します。6次元姿勢推定は、複雑な現実世界の物体とデータ取得時に発生しうる多くの問題(例えば、隠蔽、切断、データのノイズ)により未解決の課題となっています。正確な6次元姿勢の推定は、ロボットの把持や拡張現実における物体配置などの他の未解決問題においても結果を向上させることが期待されます。MaskedFusionは、物体マスクを使用して非関連データを排除することで最先端技術を改善しています。物体の6次元姿勢を推定するニューラルネットワークにマスクを組み込むことで、物体形状を表す特徴量も得られます。MaskedFusionはモジュール式のパイプラインであり、各サブタスクには目的達成に異なる手法が適用できます。MaskedFusionはLineMODデータセットでADD指標において平均97.3%、YCB-VideoデータセットでADD-S AUC指標において93.3%という精度を達成しており、これは既存の最先端手法と比較して改善しています。コードはGitHub(https://github.com/kroglice/MaskedFusion)で公開されています。