HyperAI초신경

COYO-700M은 다양한 모델을 학습할 때 사용성을 개선하기 위해 많은 다른 메타 속성과 함께 7억 4,700만 개의 이미지-텍스트 쌍을 포함하는 대규모 데이터 세트입니다. 이 데이터 세트는 이전의 비전 및 언어 데이터 세트와 유사한 전략을 따르며, HTML 문서와 관련 이미지에서 많은 유익한 대체 텍스트 쌍을 수집합니다.

데이터 수집 프로세스

연구팀은 2020년 10월부터 2021년 8월까지 CommonCrawl에서 HTML 문서의 약 100억 쌍의 대체 텍스트와 이미지 소스를 수집하고 이미지와 텍스트 수준에서 필터링 과정을 거쳐 최소한의 비용으로 정보가 없는 쌍을 제거했습니다. 그림은 연구팀의 데이터 수집 과정을 개략적으로 보여줍니다.

COYO-700M 이미지-텍스트 쌍 데이터 세트

데이터 수집 프로세스