10일 전
긴꼬리 시각 인식을 위한 검색 증강 분류
Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel

초록
우리는 표준 이미지 분류 파이프라인에 명시적인 검색 모듈을 통합하는 일반적인 접근 방식인 검색 보강 분류(Retrieval Augmented Classification, RAC)를 제안한다. RAC는 기존의 기본 이미지 인코더와 병렬로 작동하는 검색 브랜치로 구성되며, 사전에 인코딩된 이미지와 관련 텍스트 조각으로 구성된 비파라미터형 외부 메모리에서 질의를 수행한다. 우리는 RAC를 긴 꼬리 분류(long-tail classification) 문제에 적용하여, Places365-LT 및 iNaturalist-2018에서 기존 최고 성능 대비 각각 14.5%, 6.7%의 의미 있는 성능 향상을 입증했다. 이는 외부 정보 소스로 단지 학습 데이터셋 자체만을 사용했음에도 불구하고 달성된 결과이다. 우리는 RAC의 검색 모듈이 프롬프트 없이도 꼬리 클래스에 대해 높은 수준의 정확도를 학습함을 보였다. 이는 결과적으로 기본 인코더가 일반 클래스에 더 집중할 수 있도록 해주며, 그 성능을 향상시킨다. RAC는 미세 조정(fine-tuning) 없이 대규모 사전 훈련 모델을 활용하는 대안적인 접근 방식이며, 일반적인 컴퓨터 비전 아키텍처 내에서 외부 메모리를 보다 효과적으로 활용하기 위한 첫걸음으로서의 의의를 지닌다.