2달 전

웹 데이터에서 시각적 N-그램 학습

Ang Li; Allan Jabri; Armand Joulin; Laurens van der Maaten
웹 데이터에서 시각적 N-그램 학습
초록

실세계 이미지 인식 시스템은 수만 개의 클래스를 인식해야 하며, 이는 다양한 시각적 개념으로 구성됩니다. 각 클래스당 수천 개의 이미지를 주석화하여 훈련시키는 전통적인 접근 방식은 이러한 상황에서 실현 가능하지 않으므로 웹 기반 감독 데이터의 사용이 요구됩니다. 본 논문에서는 대량의 이미지와 관련된 사용자 댓글을 활용한 이미지 인식 시스템의 훈련 방법을 탐구합니다. 특히, 이미지 내용과 관련된 임의의 문구를 예측할 수 있는 시각적 n-그램 모델을 개발하였습니다. 우리의 시각적 n-그램 모델은 언어 모델링에서 일반적으로 사용되는 n-그램 모델에 영감을 받은 새로운 손실 함수를 사용하여 합성곱 신경망으로 훈련되었습니다. 우리는 문구 예측, 문구 기반 이미지 검색, 이미지와 캡션 간의 연관성, 그리고 제로샷 전송(zero-shot transfer)에서 우리 모델의 장점을 입증하였습니다.

웹 데이터에서 시각적 N-그램 학습 | 최신 연구 논문 | HyperAI초신경