2달 전

CoCa: 대조적 캡셔너는 이미지-텍스트 기초 모델입니다.

Jiahui Yu; Zirui Wang; Vijay Vasudevan; Legg Yeung; Mojtaba Seyedhosseini; Yonghui Wu
CoCa: 대조적 캡셔너는 이미지-텍스트 기초 모델입니다.
초록

대규모 사전 학습 기반 모델을 탐구하는 것은 이러한 모델이 많은 하류 작업으로 빠르게 전이될 수 있기 때문에 컴퓨터 비전 분야에서 중요한 관심사입니다. 본 논문은 대조적 캡셔너(Contrastive Captioner, CoCa)를 제시합니다. CoCa는 대조 손실과 캡션 생성 손실을 함께 사용하여 이미지-텍스트 인코더-디코더 기반 모델을 단순하게 사전 학습하는 설계입니다. 이로써 CLIP와 같은 대조 접근 방식과 SimVLM와 같은 생성 방법의 모델 능력을 통합할 수 있습니다. 표준 인코더-디코더 트랜스포머와 달리, CoCa는 디코더 레이어의 첫 번째 절반에서 교차 주의(cross-attention)를 생략하여 단일 모달 텍스트 표현을 인코딩하고, 나머지 디코더 레이어들은 이미지 인코더에 교차 주의를 하여 다중 모달 이미지-텍스트 표현을 생성합니다. 우리는 단일 모달 이미지와 텍스트 임베딩 사이에 대조 손실을 적용하며, 다중 모달 디코더 출력에서 텍스트 토큰을 자기 회귀적으로 예측하는 캡션 생성 손실도 추가로 적용합니다. 동일한 계산 그래프를 공유함으로써 두 개의 학습 목표가 최소한의 부하로 효율적으로 계산됩니다. CoCa는 웹 규모의 알트 텍스트 데이터와 주석된 이미지를 모두 사용하여 처음부터 끝까지 사전 학습됩니다. 모든 라벨을 단순히 텍스트로 처리하여 표현 학습에 대한 자연어 감독을 원활하게 통합합니다.실험적으로, CoCa는 다양한 하류 작업에서 제로샷 전이나 최소한의 작업 특화 적응으로도 최고 성능을 달성합니다. 이 범위는 시각 인식(ImageNet, Kinetics-400/600/700, Moments-in-Time), 크로스모달 검색(MSCOCO, Flickr30K, MSR-VTT), 다중 모달 이해(VQA, SNLI-VE, NLVR2), 그리고 이미지 캡션 생성(MSCOCO, NoCaps) 등을 포함합니다. 특히 ImageNet 분류에서 CoCa는 제로샷 상위 1 정확도 86.3%, 고정된 인코더와 학습된 분류 헤드를 사용할 때 90.6%의 정확도를 얻으며, 미세 조정(finetuning)된 인코더를 사용할 때 새로운 최고 성능인 91.0%의 상위 1 정확도를 달성했습니다.

CoCa: 대조적 캡셔너는 이미지-텍스트 기초 모델입니다. | 최신 연구 논문 | HyperAI초신경