
초록
우리는 컨벌루션 신경망을 기반으로 한 정확하고 실시간적인 로봇 그립 감지 접근법을 제시합니다. 우리의 네트워크는 표준 슬라이딩 윈도우나 영역 제안 기술 없이 그립 가능한 바운딩 박스를 단일 단계 회귀로 수행합니다. 이 모델은 최신 접근법보다 14% 포인트 높은 성능을 보여주며, GPU에서 초당 13프레임의 속도로 실행됩니다. 우리의 네트워크는 분류를 동시에 수행하여 단일 단계에서 객체를 인식하고 적절한 그립 사각형을 찾습니다. 이 모델에 대한 수정 버전은 로컬리 제약된 예측 메커니즘을 사용하여 객체 당 여러 개의 그립을 예측합니다. 로컬리 제약된 모델은 특히 다양한 방법으로 그립할 수 있는 객체에서 상당히 우수한 성능을 보입니다.