2달 전

검색 향상 대조적 시각-텍스트 모델

Iscen, Ahmet ; Caron, Mathilde ; Fathi, Alireza ; Schmid, Cordelia
검색 향상 대조적 시각-텍스트 모델
초록

대조적 이미지-텍스트 모델인 CLIP과 같은 시스템들은 많은 최신 기술의 핵심 구성 요소를 형성하고 있습니다. 이러한 모델들은 일반적인 개념을 인식하는 데 뛰어나지만, 희귀하거나 사전 학습 데이터셋에 아예 포함되지 않은 미세한 엔티티(fine-grained entities)를 처리하는 데 여전히 어려움을 겪고 있습니다. 따라서, 이들의 성공을 위한 중요한 요소 중 하나는 사전 학습 단계에서 기억할 수 있는 개념 집합을 확장하기 위해 대규모로 정제된(pre-curated) 사전 학습 데이터를 사용하는 것이었습니다. 본 연구에서는 미세한 지식을 직접 모델의 매개변수(parameter)에 인코딩하는 대안으로, 모델이 외부 메모리에서 이 지식을 검색(retrieve)하도록 훈련시키는 방법을 탐구합니다. 구체적으로, 우리는 기존의 비전-텍스트 모델들이 추론 시간(inference time)에 메모리에서 획득한(cross-modal retrieved) 다중 모달 정보로 임베딩(embedding)을 개선할 수 있도록 하는 능력을 부여함으로써, 이를 실현하고자 합니다. 이 접근법은 사전 학습된 CLIP 위에 경량(light-weight), 단일 층(single-layer), 융합(fusion) 트랜스포머를 추가하여 이루어집니다. 실험 결과, 우리의 검색 강화형 대조 훈련(Retrieval-Enhanced Contrastive, RECO) 방식이 CLIP의 성능을 여러 도전적인 미세 분류(fine-grained classification) 작업에서 크게 향상시킨다는 것을 확인할 수 있었습니다. 예를 들어, 스탠퍼드 카(Stanford Cars)에서는 +10.9%, CUB-2011에서는 +10.2%, 최근 발표된 OVEN 벤치마크에서는 +7.3%의 성능 향상을 보였으며, 특히 OVEN 벤치마크에서는 미타uned 모델보다도 미처 보지 못한 클래스(unseen classes)에서 더 우수한 성능을 보였습니다.

검색 향상 대조적 시각-텍스트 모델 | 최신 연구 논문 | HyperAI초신경