출력 임베딩의 미세한 이미지 분류 평가

최근 몇 년 동안 대규모 이미지 데이터셋의 활용으로 이미지 분류 기술이 크게 발전했습니다. 그러나 세부적인(fine-grained) 범주들의 주석 비용이 높기 때문에, 세부 분류는 여전히 큰 도전 과제입니다. 본 프로젝트는 라벨링된 훈련 데이터 없이도 이러한 세부 범주에서 강력한 분류 성능을 달성할 수 있음을 보여줍니다. 이미지와 클래스 임베딩(class embeddings)을 주어졌을 때, 우리는 일치하는 임베딩에 더 높은 점수를 부여하도록 호환성 함수(compatibility function)를 학습합니다. 제로샷(zero-shot) 분류는 이 호환성 점수가 가장 높은 라벨을 찾는 과정으로 이루어집니다. 우리는 최신 이미지 특징(state-of-the-art image features)을 사용하고, 감독된 속성(supervised attributes)과 감독되지 않은 출력 임베딩(unsupervised output embeddings)에 초점을 맞춥니다. 이 출력 임베딩은 계층구조(hierarchies)에서 유래되었거나 라벨링되지 않은 텍스트 코퍼스(text corpora)에서 학습된 것입니다. 우리는 Animals with Attributes 및 Caltech-UCSD Birds 데이터셋에서 현저히 개선된 최신 성능(state-of-the-art)을 확립하였습니다. 특히, 위키백과(Wikipedia)에서 학습되고 세부 텍스트(fine-grained text)로 개선된 완전히 감독되지 않은 출력 임베딩이 강력한 결과를 달성하였으며, 이는 이전의 감독된 최신 성능을 능가하였습니다. 다양한 출력 임베딩을 결합함으로써 우리는 더욱 개선된 결과를 얻었습니다.