HyperAIHyperAI

Command Palette

Search for a command to run...

COYO-700M 이미지-텍스트 쌍 데이터 세트

날짜

2년 전

크기

104.46 GB

조직

게시 URL

github.com

Featured Image

COYO-700M은 다양한 모델을 학습할 때 사용성을 개선하기 위해 많은 다른 메타 속성과 함께 7억 4,700만 개의 이미지-텍스트 쌍을 포함하는 대규모 데이터 세트입니다. 이 데이터 세트는 이전의 비전 및 언어 데이터 세트와 유사한 전략을 따르며, HTML 문서와 관련 이미지에서 많은 유익한 대체 텍스트 쌍을 수집합니다.

데이터 수집 프로세스

연구팀은 2020년 10월부터 2021년 8월까지 CommonCrawl에서 HTML 문서의 약 100억 쌍의 대체 텍스트와 이미지 소스를 수집하고 이미지와 텍스트 수준에서 필터링 과정을 거쳐 최소한의 비용으로 정보가 없는 쌍을 제거했습니다. 그림은 연구팀의 데이터 수집 과정을 개략적으로 보여줍니다.

coyo-700m.torrent
시딩 1다운로드 중 0완료됨 171총 다운로드 수 378
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp