7日前
grasping を目的とした、少量のアノテーションを用いたロボットインスタンスセグメンテーション
Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro

要約
ロボットが物体を操作する能力は、視覚的認識能力に大きく依存している。混雑したシーンや高次元の物体変動が特徴的な領域では、多くの手法が、膨大なラベル付きデータセットを必要としており、これらは手作業による精緻なアノテーションが行われている。こうしたデータを用いて訓練されたモデルは、実運用後に未知の物体に対して汎化する必要があるため、モデル自身がその運用環境に応じて進化しなければならない。この課題に対処するため、本研究では、半教師付き学習(Semi-Supervised Learning, SSL)とインタラクションを通じた学習(Learning Through Interaction, LTI)を統合する新たな枠組みを提案する。このフレームワークにより、モデルはシーンの変化を観察することで学習可能となり、時間的ギャップが存在しても視覚的一貫性を活用できる。さらに、インタラクションシーケンスのカレクトデータを必要としない。その結果、部分的にラベル付けされたデータを自己教師学習によって活用し、未ラベルの静止画像から生成された擬似シーケンスを用いて時間的文脈を組み込むことが可能となる。本手法は、ARMBench mix-object-toteおよびOCIDという2つの代表的なベンチマークで検証され、最先端の性能を達成した。特にARMBenchにおいては、$\text{AP}{50}$が86.37を達成し、既存手法と比較して約20%の向上を実現した。また、ラベル付けデータが極めて少ない状況でも顕著な成果を示し、完全ラベル付きデータセット(ARMBench)の72に対して、ラベル付きデータをわずか1%に抑えた状態でも$\text{AP}{50}$が84.89を達成した。