CC12M 이미지-텍스트 쌍 데이터 세트

CC12M(Conceptual 12M)은 시각 및 언어 사전 훈련을 위해 특별히 설계된 이미지-텍스트 쌍의 데이터 세트입니다. 이 데이터 세트에는 1,200만 개의 이미지-텍스트 쌍이 포함되어 있습니다. CC3M과 비교했을 때, 이 데이터 세트는 여러 다운스트림 작업에 대한 롱테일 시각적 인식에서 더 나은 성능을 보입니다.
CC12M(Conceptual 12M)은 시각 및 언어 사전 훈련을 위해 특별히 설계된 이미지-텍스트 쌍의 데이터 세트입니다. 이 데이터 세트에는 1,200만 개의 이미지-텍스트 쌍이 포함되어 있습니다. CC3M과 비교했을 때, 이 데이터 세트는 여러 다운스트림 작업에 대한 롱테일 시각적 인식에서 더 나은 성능을 보입니다.