HyperAIHyperAI

Command Palette

Search for a command to run...

COYO-700M Bild-Text-Paar-Datensatz

Datum

vor 2 Jahren

Größe

104.46 GB

Organisation

Veröffentlichungs-URL

github.com

Featured Image

COYO-700M ist ein großer Datensatz mit 747 Millionen Bild-Text-Paaren sowie vielen anderen Metaattributen, um die Benutzerfreundlichkeit für das Training verschiedener Modelle zu verbessern. Dieser Datensatz verfolgt eine ähnliche Strategie wie vorherige Seh- und Sprachdatensätze und sammelt viele informative alternative Textpaare in HTML-Dokumenten und den zugehörigen Bildern.

Datenerfassungsprozess

Von Oktober 2020 bis August 2021 sammelte das Forschungsteam in CommonCrawl rund 10 Milliarden Paare alternativer Text- und Bildquellen in HTML-Dokumenten und eliminierte nicht aussagekräftige Paare mit minimalem Aufwand durch einen Filterprozess auf Bild- und Textebene. Die Abbildung veranschaulicht den Datenerfassungsprozess des Forschungsteams.

coyo-700m.torrent
Seeding 1Wird heruntergeladen 0Abgeschlossen 164Gesamtdownloads 358
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp