NBMOD: 잡아라, 소음 배경 속에서 찾아라

물체를 잡는 능력은 로봇의 기본적이면서도 핵심적인 기술로, 정리 및 선택과 같은 다양한 작업이 이 기술에 의존한다. 안정적인 잡기 위해서는 적절한 잡기 위치를 정확히 식별할 수 있어야 한다. 그러나 물체의 형태가 다양하고 밀도 분포가 다르며, 각 물체의 질량중심(바리센터) 간에 큰 차이가 존재함으로써 적절한 잡기 지점을 찾는 것은 여전히 도전적인 과제이다. 최근 몇 년간 연구자들은 이러한 문제를 해결하기 위해 다양한 방법을 제안하였으며, 코넬(Cornell) 데이터셋 및 자카르드(Jacquard) 데이터셋과 같은 공개 데이터셋에서 매우 우수한 성과를 달성하였다. 그러나 코넬 및 자카르드 데이터셋의 배경은 상대적으로 단순한 편이며, 일반적으로 흰 벽만 포함되어 있는 반면, 실제 운영 환경에서는 배경이 복잡하고 노이즈가 많을 수 있다. 게다가 실제 환경에서는 로봇이 특정 유형의 물체만 잡는 것이 일반적이다. 이러한 문제를 해결하기 위해, 본 연구에서는 20종의 과일에 대한 31,500개의 RGB-D 이미지를 포함하는 대규모 잡기 탐지 데이터셋인 NBMOD(Noisy Background Multi-Object Dataset for grasp detection)를 제안한다. 방향성 경계상자(detection task of oriented bounding boxes) 탐지 과제에서 각도 정확한 예측은 오랫동안 도전적인 문제로 여겨져 왔다. 본 논문에서는 이를 해결하기 위해 회전 앵커 메커니즘(Rotation Anchor Mechanism, RAM)을 제안한다. 로봇 시스템의 고실시간 요구사항을 고려하여, RARA(Rotation Anchor and Region Attention), RAST(Rotation Anchor and Semi Transformer), RAGT(Rotation Anchor and Global Transformer) 등 경량화된 아키텍처를 제안하는 시리즈인 RA-GraspNet(GraspNet with Rotation Anchor)을 개발하였다. 이 중 RAGT-3/3 모델은 NBMOD 데이터셋에서 99%의 정확도를 달성하였다. NBMOD 데이터셋과 본 연구의 코드는 https://github.com/kmittle/Grasp-Detection-NBMOD 에 공개되어 있다.