2달 전

검색 기반 지식을 활용한 맞춤형 시각 모델 학습

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li
검색 기반 지식을 활용한 맞춤형 시각 모델 학습
초록

이미지-텍스트 대조 학습 모델인 CLIP과 같은 모델들은 강력한 작업 전송 능력을 보여주었습니다. 이러한 시각적 모델들의 높은 일반성과 사용성은 광범위한 개념을 포함하기 위해 웹 규모의 데이터 수집 과정을 거친 후, 비용이 많이 드는 사전 학습을 통해 모든 지식을 모델 가중치에 입력함으로써 달성됩니다. 이에 대안적으로, 우리는 REACT(REtrieval-Augmented CusTomization, 검색 증강 커스터마이제이션)를 제안합니다. 이 프레임워크는 목표 영역에 맞는 맞춤형 시각적 모델을 구축하기 위해 관련 웹 지식을 획득하는 방법입니다. 우리는 웹 규모의 데이터베이스에서 가장 관련성이 높은 이미지-텍스트 쌍들을(약 3%의 CLIP 사전 학습 데이터) 외부 지식으로 검색하고, 원래 가중치를 동결한 상태에서 새로운 모듈화된 블록만 훈련시켜 모델을 맞춤화하는 방법을 제안합니다. 분류, 검색, 탐지 및 세그멘테이션 작업 등 다양한 실험을 통해 REACT의 효과가 입증되었습니다. 특히, 제로샷 분류 작업에서 CLIP와 비교하여 ImageNet에서는 최대 5.4%, ELEVATER 벤치마크(20개 데이터셋)에서는 3.7%의 개선 효과를 보였습니다.

검색 기반 지식을 활용한 맞춤형 시각 모델 학습 | 최신 연구 논문 | HyperAI초신경