HyperAI

COYO-700M Bild-Text-Paar-Datensatz

Datum

vor einem Jahr

Größe

104.46 GB

Organisation

Veröffentlichungs-URL

github.com

特色图像

COYO-700M ist ein großer Datensatz mit 747 Millionen Bild-Text-Paaren sowie vielen anderen Metaattributen, um die Benutzerfreundlichkeit für das Training verschiedener Modelle zu verbessern. Dieser Datensatz verfolgt eine ähnliche Strategie wie vorherige Seh- und Sprachdatensätze und sammelt viele informative alternative Textpaare in HTML-Dokumenten und den zugehörigen Bildern.

Datenerfassungsprozess

Von Oktober 2020 bis August 2021 sammelte das Forschungsteam in CommonCrawl rund 10 Milliarden Paare alternativer Text- und Bildquellen in HTML-Dokumenten und eliminierte nicht aussagekräftige Paare mit minimalem Aufwand durch einen Filterprozess auf Bild- und Textebene. Die Abbildung veranschaulicht den Datenerfassungsprozess des Forschungsteams.

coyo-700m.torrent
Seeding 1Herunterladen 1Abgeschlossen 82Gesamtdownloads 155
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB