2달 전

노이즈 텍스트 감독을 활용한 시각적 및 시각-언어 표현 학습의 확장

Chao Jia; Yinfei Yang; Ye Xia; Yi-Ting Chen; Zarana Parekh; Hieu Pham; Quoc V. Le; Yunhsuan Sung; Zhen Li; Tom Duerig
노이즈 텍스트 감독을 활용한 시각적 및 시각-언어 표현 학습의 확장
초록

事전 학습된 표현은 많은 자연어 처리(NLP) 및 인식 작업에서 필수적이 되고 있습니다. NLP의 표현 학습은 인간의 주석 없이 원시 텍스트로 학습하는 방식으로 전환되었지만, 시각적 및 시각-언어 표현은 여전히 비용이 많이 들거나 전문 지식을 요구하는 정제된 훈련 데이터셋에 크게 의존하고 있습니다. 시각 응용 분야에서는 ImageNet 또는 OpenImages와 같은 명시적인 클래스 라벨을 가진 데이터셋을 주로 사용하여 표현을 학습합니다. 시각-언어 분야에서는 Conceptual Captions, MSCOCO, 또는 CLIP와 같은 인기 있는 데이터셋들이 모두 복잡한 데이터 수집(및 정리) 과정을 포함합니다. 이러한 비용이 많이 드는 정제 과정은 데이터셋의 크기를 제한하고 따라서 훈련된 모델의 확장을 방해합니다.본 논문에서는 Conceptual Captions 데이터셋에서 고가의 필터링이나 후처리 단계 없이 얻은 10억 개 이상의 이미지 대체 텍스트 쌍으로 구성된 노이즈가 있는 데이터셋을 활용합니다. 간단한 듀얼 인코더 아키텍처는 대조 손실 함수를 사용하여 이미지와 텍스트 쌍의 시각적 및 언어적 표현을 맞추도록 학습합니다. 우리는 우리의 말뭉치 크기가 그 노이즈를 보완할 수 있으며, 이는 이러한 간단한 학습 방법에서도 최신 기술 수준의 표현을 생성할 수 있음을 보여줍니다. 우리의 시각적 표현은 ImageNet과 VTAB와 같은 분류 작업으로 이전될 때 강력한 성능을 발휘합니다. 일치된 시각적 및 언어적 표현은 제로샷 이미지 분류를 가능하게 하며, Flickr30K와 MSCOCO 이미지-텍스트 검색 벤치마크에서도 더 복잡한 교차 주목 모델과 비교해도 새로운 최신 기술 결과를 설정하였습니다. 또한 이러한 표현들은 복잡한 텍스트 및 텍스트 + 이미지 쿼리를 사용한 크로스 모달리티 검색도 가능하게 합니다.

노이즈 텍스트 감독을 활용한 시각적 및 시각-언어 표현 학습의 확장 | 최신 연구 논문 | HyperAI초신경