HyperAI초신경

COYO-700M 이미지-텍스트 쌍 데이터 세트

날짜

일 년 전

크기

104.46 GB

기관

발행 주소

github.com

特色图像

COYO-700M은 다양한 모델을 학습할 때 사용성을 개선하기 위해 많은 다른 메타 속성과 함께 7억 4,700만 개의 이미지-텍스트 쌍을 포함하는 대규모 데이터 세트입니다. 이 데이터 세트는 이전의 비전 및 언어 데이터 세트와 유사한 전략을 따르며, HTML 문서와 관련 이미지에서 많은 유익한 대체 텍스트 쌍을 수집합니다.

데이터 수집 프로세스

연구팀은 2020년 10월부터 2021년 8월까지 CommonCrawl에서 HTML 문서의 약 100억 쌍의 대체 텍스트와 이미지 소스를 수집하고 이미지와 텍스트 수준에서 필터링 과정을 거쳐 최소한의 비용으로 정보가 없는 쌍을 제거했습니다. 그림은 연구팀의 데이터 수집 과정을 개략적으로 보여줍니다.

coyo-700m.torrent
시딩 2다운로드 중 1완료됨 82총 다운로드 횟수 155
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB