HyperAIHyperAI
vor 17 Tagen

FooDI-ML: Ein großes, mehrsprachiges Datensatz aus Bildern und Beschreibungen von Lebensmitteln, Getränken und Lebensmittelartikeln

David Amat Olóndriz, Ponç Palau Puigdevall, Adrià Salvador Palau
FooDI-ML: Ein großes, mehrsprachiges Datensatz aus Bildern und Beschreibungen von Lebensmitteln, Getränken und Lebensmittelartikeln
Abstract

In diesem Paper stellen wir den FooDI-ML-Datensatz vor. Dieser Datensatz enthält über 1,5 Mio. eindeutige Bilder sowie über 9,5 Mio. Geschäftsnamen, Produktnamen, Beschreibungen und Sammlungssektionen, die aus der Glovo-Anwendung gesammelt wurden. Die bereitgestellten Daten umfassen Lebensmittel, Getränke und Lebensmittelzubehör aus 37 Ländern in Europa, dem Nahen Osten, Afrika und Lateinamerika. Der Datensatz umfasst 33 Sprachen, darunter 870.000 Sprachproben aus Ländern Osteuropas und Westasiens wie Ukrainisch und Kasachisch, die bisher in öffentlich verfügbaren visuo-linguistischen Datensätzen unterrepräsentiert waren. Zudem sind weit verbreitete Sprachen wie Spanisch und Englisch enthalten. Zur Unterstützung weiterer Forschung liefern wir Benchmark-Ergebnisse für zwei Aufgaben: Text-Bild-Retrieval und bedingte Bildgenerierung.