10일 전

웹 스케일 이미지-텍스트 데이터에서 검색을 통한 이미지 인식 향상

Ahmet Iscen, Alireza Fathi, Cordelia Schmid
웹 스케일 이미지-텍스트 데이터에서 검색을 통한 이미지 인식 향상
초록

검색 증강 모델은 최근 자연어 처리(NLP) 문제에서의 성공을 계기로 컴퓨터 비전 작업에서 점점 더 인기를 끌고 있다. 이 모델의 목적은 외부 메모리 집합에서 입력된 시각 정보와 유사한 예제를 검색함으로써 모델의 인식 능력을 향상시키는 것이다. 본 연구에서는 메모리에서 검색된 각 예제의 중요도를 학습하는 주의 기반 메모리 모듈을 제안한다. 기존 방법들과 비교해 본 방법은 관련 없는 검색된 예제의 영향을 제거하고, 입력 쿼리에 유익한 예제만 유지한다. 또한 메모리 데이터셋을 구성하는 다양한 방법을 철저히 탐구한다. 실험 결과, 10억 개의 이미지-텍스트 쌍으로 구성된 대규모 메모리 데이터셋을 사용할 때의 이점을 입증하며, 다양한 메모리 표현 방식의 성능을 비교하였다. 제안한 방법은 장기적 분포 인식(long-tailed recognition), 노이즈 있는 레이블로 학습하기, 미세 분류(fine-grained classification)라는 세 가지 다른 분류 과제에서 평가되었으며, ImageNet-LT, Places-LT, Webvision 데이터셋에서 최신 기술(SOTA) 수준의 정확도를 달성함을 보였다.

웹 스케일 이미지-텍스트 데이터에서 검색을 통한 이미지 인식 향상 | 최신 연구 논문 | HyperAI초신경