
초록
시각적 인식의 주요 과제 중 하나는 시점, 가림, 운동, 변형 등 복잡한 방해 요소에 영향을 받는 시각적 측정값에서 3D 객체와 객체 범주의 추상 모델을 추출하는 것입니다. 최근 시점 분리화(viewpoint factorization) 아이디어를 기반으로, 우리는 객체의 대량 이미지와 다른 감독 없이 밀도 높은 객체 중심 좌표 프레임을 추출할 수 있는 새로운 접근법을 제안합니다. 이 좌표 프레임은 이미지의 변형에 불변성을 가지고 있으며, 이미지 픽셀을 해당 객체 좌표로 매핑할 수 있는 밀도 높은 등변성(equivariant) 라벨링 신경망과 함께 제공됩니다. 우리는 이 방법이 인간 얼굴과 같은 단순한 관절 객체와 변형 가능한 객체에 적용될 수 있음을 보여주며, 임의의 합성 변환 또는 광학 흐름 대응(optical flow correspondences)으로부터 임베딩을 학습할 수 있다는 점을 증명합니다. 이 모든 과정은 어떠한 수작업 감독도 필요하지 않습니다.