2달 전
GENESIS-V2: 순서 없는 객체 표현을 반복적인 정제 없이 추론하기
Martin Engelcke; Oiwi Parker Jones; Ingmar Posner

초록
비지도 객체 표현 학습의 발전은 비지도 객체 분할 및 해석 가능한 객체 중심 장면 생성을 위한 다양한 방법들의 개발로 이어졌습니다. 그러나 이러한 방법들은 시각적 복잡성이 제한된 시뮬레이션 데이터셋과 실제 세계 데이터셋에만 한정됩니다. 또한, 객체 표현은 종종 RNN(재귀 신경망)을 사용하여 추론되며, 이는 큰 이미지나 반복적인 정교화에 잘 확장되지 않습니다. 반복적인 정교화는 이미지 내의 객체에 인위적인 순서를 부여하지 않지만, 사전에 고정된 수의 객체 표현을 초기화해야 하는 단점이 있습니다. 기존 패러다임과 달리, 본 연구에서는 스토크라스틱 스틱 브레이킹 과정을 사용하여 차별화 가능한 방식으로 픽셀 임베딩을 클러스터링하는 임베딩 기반 접근법을 제안합니다. 이 클러스터링 절차는 반복적인 정교화와 유사하게 무작위로 순서가 정해진 객체 표현을 생성하지만, 사전에 고정된 수의 클러스터를 초기화할 필요가 없습니다. 이를 통해 RNN이나 반복적인 정교화를 사용하지 않고도 가변적인 수의 객체 표현을 추론할 수 있는 새로운 모델인 GENESIS-v2를 개발하였습니다. 우리는 GENESIS-v2가 기존 합성 데이터셋뿐만 아니라 더 복잡한 실제 세계 데이터셋에서도 비지도 이미지 분할 및 객체 중심 장면 생성 측면에서 최근 베이스라인들과 비교해 강력한 성능을 보임을 확인하였습니다.