7日前

NBMOD:ノイズの多い背景において、それを検出し、捉える

Boyuan Cao, Xinyu Zhou, Congmin Guo, Baohua Zhang, Yuchen Liu, Qianqiu Tan
NBMOD:ノイズの多い背景において、それを検出し、捉える
要約

物体の把持はロボットにとって基本的かつ重要な能力であり、分類やピッキングといった多くのタスクはこのスキルに依存しています。安定した把持を実現するための前提条件は、適切な把持位置を正しく識別できる能力です。しかし、物体の形状が多様であり、密度分布も異なること、また異なる物体間で重心の位置に大きな差が生じるため、適切な把持点を見つけることは困難です。近年、研究者たちは上記の課題に対処するため多数の手法を提案しており、コーネルデータセットやジャカールデータセットといった公開データセットにおいて優れた成果を上げています。しかしながら、これらのデータセットの背景は比較的単純であり、通常は白板程度のものにとどまっています。一方、実世界の運用環境では背景が複雑でノイズが多くなることが多く、また実際の場面ではロボットが把持する対象は限定された種類に限られることが多いです。こうした課題に応じて、本研究では20種類の果物を対象とした31,500枚のRGB-D画像から構成される大規模な把持検出データセット「NBMOD(Noisy Background Multi-Object Dataset for grasp detection)」を提案しました。方向付きバウンディングボックスの検出タスクにおいて、角度の正確な予測は常に困難な課題でした。本論文では、この問題に対処するための「回転アンカー機構(Rotation Anchor Mechanism: RAM)」を提案します。また、ロボットシステムにおける高いリアルタイム性の要件を考慮し、軽量なアーキテクチャ群として以下の3つのモデルを設計しました:RARA(Rotation AnchorとRegion Attentionを備えたネットワーク)、RAST(Rotation Anchorとセミトランスフォーマーを備えたネットワーク)、およびRAGT(Rotation Anchorとグローバルトランスフォーマーを備えたネットワーク)。これらのモデルの中でも、RAGT-3/3モデルはNBMODデータセット上で99%の精度を達成しました。NBMODデータセットおよび本研究のコードは、https://github.com/kmittle/Grasp-Detection-NBMOD にて公開されています。

NBMOD:ノイズの多い背景において、それを検出し、捉える | 最新論文 | HyperAI超神経