2달 전

비지도 학습을 통한 객체 랜드마크의 구조적 표현으로서의 발견

Yuting Zhang; Yijie Guo; Yixin Jin; Yijun Luo; Zhiyuan He; Honglak Lee
비지도 학습을 통한 객체 랜드마크의 구조적 표현으로서의 발견
초록

깊은 신경망은 풍부한 잠재 표현을 통해 이미지를 모델링할 수 있지만, 객체 카테고리의 구조를 인간이 인식할 수 있는 방식으로 자연스럽게 개념화할 수는 없습니다. 본 논문에서는 감독 없이 이미지 모델링 과정에서 객체 구조를 학습하는 문제를 다룹니다. 우리는 랜드마크를 명시적인 구조적 표현으로 발견하기 위한 오토인코딩 방법론을 제안합니다. 인코딩 모듈은 랜드마크 좌표를 출력하며, 이 좌표의 유효성은 랜드마크가 갖춰야 할 필수 속성을 반영하는 제약 조건에 의해 보장됩니다. 디코딩 모듈은 끝단에서 미분 가능한 프레임워크에서 랜드마크를 학습 가능한 입력 표현의 일부로 취급합니다. 우리가 발견한 랜드마크는 의미론적으로 유의미하며, 이전 방법들에 의해 발견된 란드마크보다 수동으로 주석 처리된 랜드마크를 예측하는 능력이 더 우수합니다. 또한, 우리의 랜드마크 좌표는 사전 훈련된 깊은 신경망 표현과 시각적 속성을 인식하는 데 있어 보완적인 특징입니다. 더불어, 제안된 방법은 객체 형태를 조작하고 제어 가능한 구조로 이미지를 디코딩하기 위한 감독되지 않은, 인식 가능한 인터페이스를 자연스럽게 생성합니다. 프로젝트 웹페이지는 http://ytzhang.net/projects/lmdis-rep 입니다.