
초록
우리는 픽셀 수준 그룹화 문제를 해결하기 위한 미분 가능하고 엔드 투 엔드로 학습 가능한 프레임워크를 소개합니다. 이 프레임워크는 두 가지 혁신적인 구성 요소로 이루어져 있습니다. 첫째, 우리는 같은 그룹에 속한 픽셀들이 높은 코사인 유사성을 가지며, 다른 그룹에 속한 픽셀들은 지정된 마진보다 낮은 유사성을 가지도록 하이퍼 스페리컬 임베딩 공간으로 픽셀을 회귀합니다. 우리는 임베딩 차원과 마진의 선택을 분석하며, 이를 구면 위에서 점들을 균일하게 배치하는 문제에 대한 이론적 결과와 연관시킵니다. 둘째, 인스턴스를 그룹화하기 위해 커널 밴드폭으로 매개변수화된 순환 신경망으로 구현된 평균 이동 클러스터링의 변형을 활용합니다. 이 순환 그룹화 모듈은 미분 가능하며, 수렴 동역학과 확률적 해석 가능성을 갖추고 있습니다. 이 모듈을 통해 그룹 가중 손실을 역전파함으로써 후속 클러스터링 과정에서 해결되지 않는 임베딩 오류만 수정하도록 학습에 초점을 맞출 수 있습니다. 우리의 프레임워크는 개념적으로 단순하면서도 이론적으로 풍부하며, 실제로 효과적이며 계산적으로 효율적입니다. 우리는 객체 제안 생성 및 경계 검출, 의미 분할 등의 분류 작업에서 그룹화 손실의 이점을 보여주며, 최신 기술 대비 인스턴스 분할에서 실질적인 개선을 입증하였습니다.