2달 전

비지도 이미지 표현 학습에 대한 깊은 잠재 입자 연구

Tal Daniel; Aviv Tamar
비지도 이미지 표현 학습에 대한 깊은 잠재 입자 연구
초록

우리는 객체 위치와 외관을 분리하는 새로운 시각 데이터 표현 방법을 제안합니다. 이 방법은 Deep Latent Particles (DLP)라고 명명되었으며, 시각 입력을 저차원 잠재 "입자(particles)"로 분해합니다. 각 입자는 공간 위치와 그 주변 영역의 특징으로 설명됩니다. 이러한 표현의 학습을 촉진하기 위해 VAE 기반 접근 방식을 따르고, 입자의 위치에 대한 사전 확률분포를 공간 소프트맥스(spatial-softmax) 구조에 기반하여 도입하며, 입자 간 챔퍼 거리(Chamfer distance)에서 영감을 받은 증거 하한(evidence lower bound) 손실 함수의 수정 버전을 제시합니다. 우리는 DLP 표현이 다수의 동적 객체로 구성된 장면의 비지도 키포인트(KP) 검출, 이미지 조작, 비디오 예측 등의 후속 작업에 유용하다는 것을 보여줍니다. 또한 문제에 대한 우리의 확률적 해석이 자연스럽게 입자의 위치에 대한 불확실성 추정치를 제공하며, 이는 모델 선택 등 다른 작업에도 활용될 수 있음을 확인하였습니다. 관련 비디오와 코드는 다음과 같이 제공됩니다: https://taldatech.github.io/deep-latent-particles-web/