HyperAIHyperAI

Command Palette

Search for a command to run...

개념적 캡션 데이터 세트(CC12M)

날짜

5년 전

조직

Google

게시 URL

ai.google.com

Featured Image

이 데이터 세트는 2018년에 구글에서 공개되었으며 330만 개의 이미지-캡션 쌍을 포함합니다. 이 팀은 수십억 개의 웹 페이지에서 후보 이미지와 텍스트 쌍을 추출, 필터링, 처리하는 자동화된 파이프라인을 만들었습니다. 데이터 세트는 훈련 세트, 검증 세트, 테스트 세트로 나뉩니다. 훈련 세트는 3,318,333개의 이미지 URL/제목 쌍으로 구성되어 있으며, 제목에 포함된 토큰 유형(즉, 어휘)의 총 수는 51,201개입니다. 각 제목에는 평균 10.3개의 토큰이 포함되어 있으며, 검증 세트는 15,840개의 이미지 URL/제목 쌍으로 구성됩니다. 또한, 연구팀은 훈련 세트에서 2,007,528개의 이미지 URL/제목 쌍에 대해 기계 생성 이미지 레이블을 제공했습니다. 관련 논문: 개념적 캡션: 자동 이미지 캡션을 위한 정제되고 상위어가 있는 이미지 대체 텍스트 데이터 세트

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp