2달 전

BB8: 깊이 정보를 사용하지 않고 부분적으로 가려진 어려운 물체의 3D 자세를 예측하는 확장성 있고 정확하며 강인한 방법

Mahdi Rad; Vincent Lepetit
BB8: 깊이 정보를 사용하지 않고 부분적으로 가려진 어려운 물체의 3D 자세를 예측하는 확장성 있고 정확하며 강인한 방법
초록

우리는 색상 이미지만을 사용하여 3D 객체 검출 및 자세 추정을 위한 새로운 방법을 소개합니다. 먼저, 부분적으로 가려진 객체와 복잡한 배경이 있는 경우에도 2D에서 관심 객체를 검출하기 위해 분할(segmentation)을 사용합니다. 최근의 패치 기반 방법과 달리, 우리는 "전체적(holistic)" 접근 방식을 채택합니다: 검출된 객체에 3D 바운딩 박스의 모서리를 2D 투영 형태로 예측하도록 훈련된 합성곱 신경망(Convolutional Neural Network, CNN)을 적용합니다. 그러나 이는 최근 T-LESS 데이터셋의 객체들을 처리하기에는 충분하지 않습니다: 이러한 객체들은 회전 대칭축을 가지고 있으며, 두 가지 다른 자세에서 찍힌 두 이미지가 유사해 CNN 훈련이 어려워집니다. 우리는 이 문제를 해결하기 위해 훈련에 사용되는 자세 범위를 제한하고, 실행 시 자세 범위를 식별한 후 이를 추정하는 분류기를 도입하였습니다. 또한 예측된 자세를 정교하게 조정하는 선택적인 추가 단계도 사용하였습니다. 우리의 방법은 LINEMOD 데이터셋에서 정확히 등록된 RGB 프레임 비율을 73.7%에서 89.3%로 개선했습니다. 또한 우리는 색상 이미지만을 사용하여 Occlusion 데이터셋에서 결과를 보고한 최초의 연구입니다. T-LESS 데이터셋의 여러 시퀀스에서 평균적으로 Pose 6D 기준을 통과하는 프레임 비율이 54%로 나타났습니다. 이는 같은 시퀀스에서 색상과 깊이 정보를 모두 사용한 최신 기술(state-of-the-art)인 67%와 비교됩니다. 전체 접근 방식은 확장 가능성이 높으며, 하나의 네트워크가 동시에 여러 객체에 대해 훈련될 수 있습니다.

BB8: 깊이 정보를 사용하지 않고 부분적으로 가려진 어려운 물체의 3D 자세를 예측하는 확장성 있고 정확하며 강인한 방법 | 최신 연구 논문 | HyperAI초신경