Mean Shift Mask Transformer for Unseen Object Instance Segmentation 미디언 시프트 마스크 트랜스포머를 이용한 미지 객체 인스턴스 분할

이미지에서 미처 본 적 없는 물체를 분할하는 것은 로봇이 습득해야 하는 중요한 인식 기술입니다. 로봇 조작에서는 이 기술이 로봇이 미처 본 적 없는 물체를 잡고 조작하는 것을 용이하게 합니다. 평균 이동 클러스터링은 이미지 분할 작업에 널리 사용되는 방법입니다. 그러나 전통적인 평균 이동 클러스터링 알고리즘은 미분 가능하지 않아, 이를 엔드투엔드 신경망 학습 프레임워크에 통합하기 어렵습니다. 본 연구에서는 von Mises-Fisher (vMF) 평균 이동 클러스터링 알고리즘을 시뮬레이트하는 새로운 트랜스포머 아키텍처인 Mean Shift Mask Transformer (MSMFormer)를 제안합니다. 이는 특징 추출기와 클러스터링의 공동 학습과 추론을 가능하게 합니다. MSMFormer의 핵심 구성 요소는 초구면 주의 메커니즘으로, 이 메커니즘은 초구面上의 객체 쿼리를 업데이트합니다(초구면 주의 메커니즘: hypersphere attention mechanism). 우리 방법의 효과성을 설명하기 위해, MSMFormer를 미처 본 적 없는 객체 인스턴스 분할에 적용하였습니다. 실험 결과, MSMFormer는 미처 본 적 없는 객체 인스턴스 분할을 위한 최신 방법들과 비교하여 경쟁력 있는 성능을 보였습니다. 프로젝트 페이지, 부록, 비디오 및 코드는 https://irvlutd.github.io/MSMFormer에서 확인할 수 있습니다.注:在“超球面上的对象查询”这一部分,由于韩语中没有直接对应的词汇,我保留了“超球面”(초구면)并加上了英文注释。如果您有更合适的韩语术语,请告知我进行修改。