2달 전

깊은 학습을 이용한 세부 시각적 설명의 표현 학습

Scott Reed; Zeynep Akata; Bernt Schiele; Honglak Lee
깊은 학습을 이용한 세부 시각적 설명의 표현 학습
초록

최신의 제로샷 시각 인식 방법은 이미지와 부가 정보의 공동 임베딩 문제로 학습을 정식화합니다. 이러한 정식화에서 현재 가장 우수한 시각적 특성의 보완재는 속성입니다: 카테고리 간 공유된 특성을 설명하는 수작업으로 인코딩된 벡터들입니다. 좋은 성능에도 불구하고, 속성에는 다음과 같은 한계가 있습니다: (1) 세부적인 인식을 위해서는 비례적으로 더 많은 속성이 필요하며, (2) 속성은 자연어 인터페이스를 제공하지 않습니다. 우리는 이러한 한계를 극복하기 위해 사전 학습 없이 단어와 문자만을 사용하여 신경 언어 모델을 처음부터 훈련시키는 방법을 제안합니다. 제안된 모델은 이미지의 세부적인 및 카테고리별 내용과 일치하도록 엔드투엔드로 훈련됩니다. 자연어는 카테고리를 구분하기 위한 주요 시각적 측면만을 효율적이고 압축적으로 인코딩할 수 있는 유연한 방법을 제공합니다. 원시 텍스트로 훈련함으로써, 우리의 모델은 원시 텍스트에 대한 추론도 가능하며, 사람들은 이 모델을 주석과 검색 모두에 익숙하게 활용할 수 있습니다. 우리의 모델은 제로샷 텍스트 기반 이미지 검색에서 강력한 성능을 보여주며, Caltech UCSD Birds 200-2011 데이터셋에서 제로샷 분류에 있어서 속성 기반 최신 기술보다 크게 우수한 성능을 나타냅니다.

깊은 학습을 이용한 세부 시각적 설명의 표현 학습 | 최신 연구 논문 | HyperAI초신경