
초록
최신의 제로샷 시각 인식 방법은 이미지와 부가 정보의 공동 임베딩 문제로 학습을 정식화합니다. 이러한 정식화에서 현재 가장 우수한 시각적 특성의 보완재는 속성입니다: 카테고리 간 공유된 특성을 설명하는 수작업으로 인코딩된 벡터들입니다. 좋은 성능에도 불구하고, 속성에는 다음과 같은 한계가 있습니다: (1) 세부적인 인식을 위해서는 비례적으로 더 많은 속성이 필요하며, (2) 속성은 자연어 인터페이스를 제공하지 않습니다. 우리는 이러한 한계를 극복하기 위해 사전 학습 없이 단어와 문자만을 사용하여 신경 언어 모델을 처음부터 훈련시키는 방법을 제안합니다. 제안된 모델은 이미지의 세부적인 및 카테고리별 내용과 일치하도록 엔드투엔드로 훈련됩니다. 자연어는 카테고리를 구분하기 위한 주요 시각적 측면만을 효율적이고 압축적으로 인코딩할 수 있는 유연한 방법을 제공합니다. 원시 텍스트로 훈련함으로써, 우리의 모델은 원시 텍스트에 대한 추론도 가능하며, 사람들은 이 모델을 주석과 검색 모두에 익숙하게 활용할 수 있습니다. 우리의 모델은 제로샷 텍스트 기반 이미지 검색에서 강력한 성능을 보여주며, Caltech UCSD Birds 200-2011 데이터셋에서 제로샷 분류에 있어서 속성 기반 최신 기술보다 크게 우수한 성능을 나타냅니다.