제약 없는 개방형 어휘 이미지 분류: 텍스트에서 이미지로의 제로샷 전이를 통한 CLIP 역전

우리는 NOVIC를 소개합니다. NOVIC는 혁신적인 실시간 제약 없는 개방형 어휘 이미지 분류기로, 자기 회귀 변환기를 사용하여 분류 라벨을 언어 형태로 생성적으로 출력합니다. CLIP 모델의 광범위한 지식을 활용하여 NOVIC는 임베딩 공간을 통해 순수한 텍스트에서 이미지로의 제로샷 전이(zero-shot transfer)를 가능하게 합니다. 기존의 CLIP 모델들은 개방형 어휘 분류가 가능하지만, 가능한 클래스 라벨들의 완전한 프롬프트(prompt)가 필요해 알려진 내용이나 맥락의 이미지에만 적용이 제한되었습니다. 이를 해결하기 위해 우리는 대규모 9200만 개 타겟 데이터셋으로 구성된 템플릿화된 객체 명사 집합과 LLM(대형 언어 모델)이 생성한 캡션을 학습하는 "객체 디코더(object decoder)" 모델을 제안합니다. 이 모델은 항상 질문 중인 객체 명사를 출력하도록 설계되어 CLIP 텍스트 인코더를 역으로 작동시키고, 이미지에서 파생된 임베딩 벡터로부터 사실상 영어 전체 언어에서의 텍스트 객체 라벨을 직접 생성할 수 있게 합니다. 이 과정은 이미지의 잠재적 내용에 대한 사전 지식이 필요하지 않으며, 어떠한 라벨 편향도 없이 수행됩니다. 학습된 디코더는 수작업 및 웹 큐레이션 데이터셋과 표준 이미지 분류 벤치마크를 혼합하여 테스트되었으며, 최대 87.5%의 세부적인 프롬프트 없는 예측 점수를 달성했습니다. 이 결과는 모델이 모든 상상 가능한 이미지에 대해 작동하고 어떠한 맥락적 단서도 없이 수행해야 한다는 점을 고려하면 매우 강력한 것입니다.