17일 전

개념적 12M: 긴 꼬리 시각 개념을 인식하기 위해 웹 규모의 이미지-텍스트 사전 학습을 한계까지 밀어붙이기

Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut
개념적 12M: 긴 꼬리 시각 개념을 인식하기 위해 웹 규모의 이미지-텍스트 사전 학습을 한계까지 밀어붙이기
초록

대규모 이미지 캡션 생성 및 시각질문응답(Visual Question Answering) 데이터셋의 가용성은 최근 시각-언어 사전학습 분야의 성공에 크게 기여해왔다. 그러나 이러한 데이터셋은 원래의 목표 작업(예: 이미지 캡션 생성)에서 유래한 지나치게 엄격한 수집 기준을 따르는 경우가 많아, 최종 데이터셋의 규모와 다양성에 한계를 가진다. 본 연구에서는 Conceptual Captions 3M(CC3M) [Sharma 등, 2018]에서 사용된 데이터 수집 파이프라인을 완화함으로써 시각-언어 사전학습 데이터의 한계를 더욱 확장하고, 시각-언어 사전학습에 특별히 최적화된 1,200만 개의 이미지-텍스트 쌍을 포함하는 Conceptual 12M(CC12M) 데이터셋을 제안한다. 제안된 데이터셋에 대한 분석을 수행하고, 특히 장꼬리(장기미세) 시각 인식에 중점을 두어 다양한 하류 작업에서 CC3M와의 성능을 비교 평가하였다. 그 결과, 시각-언어 작업의 사전학습 데이터 규모 확대가 얼마나 중요한지 명확히 보여주었으며, 이는 nocaps 및 Conceptual Captions 벤치마크에서 새로운 최고 성능(SOTA)을 달성함으로써 입증되었다.