COYO-700M Bild-Text-Paar-Datensatz

COYO-700M ist ein großer Datensatz mit 747 Millionen Bild-Text-Paaren sowie vielen anderen Metaattributen, um die Benutzerfreundlichkeit für das Training verschiedener Modelle zu verbessern. Dieser Datensatz verfolgt eine ähnliche Strategie wie vorherige Seh- und Sprachdatensätze und sammelt viele informative alternative Textpaare in HTML-Dokumenten und den zugehörigen Bildern.
Datenerfassungsprozess
Von Oktober 2020 bis August 2021 sammelte das Forschungsteam in CommonCrawl rund 10 Milliarden Paare alternativer Text- und Bildquellen in HTML-Dokumenten und eliminierte nicht aussagekräftige Paare mit minimalem Aufwand durch einen Filterprozess auf Bild- und Textebene. Die Abbildung veranschaulicht den Datenerfassungsprozess des Forschungsteams.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.