HyperAI초신경

이 데이터 세트는 2018년에 구글에서 공개되었으며 330만 개의 이미지-캡션 쌍을 포함합니다. 이 팀은 수십억 개의 웹 페이지에서 후보 이미지와 텍스트 쌍을 추출, 필터링, 처리하는 자동화된 파이프라인을 만들었습니다.

데이터 세트는 훈련 세트, 검증 세트, 테스트 세트로 나뉩니다. 훈련 세트는 3,318,333개의 이미지 URL/제목 쌍으로 구성되어 있으며, 제목에 포함된 토큰 유형(즉, 어휘)의 총 수는 51,201개입니다. 각 제목에는 평균 10.3개의 토큰이 포함되어 있으며, 검증 세트는 15,840개의 이미지 URL/제목 쌍으로 구성됩니다.

또한, 연구팀은 훈련 세트에서 2,007,528개의 이미지 URL/제목 쌍에 대해 기계 생성 이미지 레이블을 제공했습니다.

개념적 캡션 데이터 세트(CC12M)