COYO-700M Bild-Text-Paar-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien

COYO-700M ist ein großer Datensatz mit 747 Millionen Bild-Text-Paaren sowie vielen anderen Metaattributen, um die Benutzerfreundlichkeit für das Training verschiedener Modelle zu verbessern. Dieser Datensatz verfolgt eine ähnliche Strategie wie vorherige Seh- und Sprachdatensätze und sammelt viele informative alternative Textpaare in HTML-Dokumenten und den zugehörigen Bildern.
Datenerfassungsprozess
Von Oktober 2020 bis August 2021 sammelte das Forschungsteam in CommonCrawl rund 10 Milliarden Paare alternativer Text- und Bildquellen in HTML-Dokumenten und eliminierte nicht aussagekräftige Paare mit minimalem Aufwand durch einen Filterprozess auf Bild- und Textebene. Die Abbildung veranschaulicht den Datenerfassungsprozess des Forschungsteams.