HyperAIHyperAI

Command Palette

Search for a command to run...

WIT 이미지-텍스트 데이터 세트

날짜

4년 전

크기

25.2 GB

조직

Google

게시 URL

github.com

Paper URL

arxiv.org

라이선스

Other

Featured Image

WIT는 대규모 다중 모드 및 다국어 데이터 세트인 Wikipedia 기반 이미지 텍스트를 의미합니다. 이 데이터 세트는 108개 위키백과 언어로 작성된 1,150만 개의 고유한 이미지를 포함하는 3,760만 개의 엔터티가 강화된 이미지-텍스트 예시로 구성된 큐레이션된 컬렉션으로 구성되어 있습니다. 이 데이터 세트의 크기는 다중 모드 머신 러닝 모델의 사전 학습 데이터 세트로 사용하기에 적합합니다. WIT에는 4가지 독특한 장점이 있습니다.

  • WIT는 이미지-텍스트 예시의 수 측면에서 가장 큰 멀티모달 데이터 세트입니다.
  • 100개 이상의 언어가 포함되어 있으며(언어당 최소 12,000개의 예 포함), 많은 이미지에 대해 언어 간 텍스트가 제공됩니다.
  • 이전 데이터 세트에 비해 WIT는 더 다양한 개념과 현실 세계의 실체를 나타냅니다.
  • WIT는 매우 도전적인 실제 테스트 세트를 제공합니다.
WIT.torrent
시딩 1다운로드 중 0완료됨 611총 다운로드 수 809
  • WIT/
    • README.md
      1.41 KB
    • README.txt
      2.82 KB
      • data/
          • val/
            • wit_v1.val.all-00000-of-00005.tsv.gz
              25.05 GB
            • wit_v1.val.all-00001-of-00005.tsv.gz
              25.09 GB
            • wit_v1.val.all-00002-of-00005.tsv.gz
              25.13 GB
            • wit_v1.val.all-00003-of-00005.tsv.gz
              25.17 GB
            • wit_v1.val.all-00004-of-00005.tsv.gz
              25.2 GB
          • test/
            • wit_v1.test.all-00000-of-00005.tsv.gz
              30.8 MB
            • wit_v1.test.all-00001-of-00005.tsv.gz
              61.46 MB
            • wit_v1.test.all-00002-of-00005.tsv.gz
              91.95 MB
            • wit_v1.test.all-00003-of-00005.tsv.gz
              122.5 MB
            • wit_v1.test.all-00004-of-00005.tsv.gz
              153.14 MB
          • train/
            • wit_v1.train.all-00000-of-00010.tsv.gz
              2.64 GB
            • wit_v1.train.all-00001-of-00010.tsv.gz
              5.12 GB
            • wit_v1.train.all-00002-of-00010.tsv.gz
              7.61 GB
            • wit_v1.train.all-00003-of-00010.tsv.gz
              10.1 GB
            • wit_v1.train.all-00004-of-00010.tsv.gz
              12.58 GB
            • wit_v1.train.all-00005-of-00010.tsv.gz
              15.07 GB
            • wit_v1.train.all-00006-of-00010.tsv.gz
              17.56 GB
            • wit_v1.train.all-00007-of-00010.tsv.gz
              20.04 GB
            • wit_v1.train.all-00008-of-00010.tsv.gz
              22.53 GB
            • wit_v1.train.all-00009-of-00010.tsv.gz
              25.02 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp