FooDI-ML : un grand jeu de données multilingue d'images et de descriptions de nourriture, boissons et produits alimentaires

Dans cet article, nous introduisons le jeu de données FooDI-ML. Ce jeu de données comprend plus de 1,5 million d’images uniques et plus de 9,5 millions de noms de magasins, de noms de produits, de descriptions et de sections de collecte extraits de l’application Glovo. Les données mises à disposition concernent des produits alimentaires, des boissons et des articles d’épicerie provenant de 37 pays en Europe, au Moyen-Orient, en Afrique et en Amérique latine. Le jeu de données couvre 33 langues, dont 870 000 échantillons de langues parlées dans les pays d’Europe de l’Est et d’Asie occidentale, telles que l’ukrainien et le kazakh, qui ont jusqu’à présent été sous-représentées dans les jeux de données visuo-linguistiques disponibles publiquement. Il inclut également des langues largement parlées, telles que l’espagnol et l’anglais. Pour faciliter des recherches ultérieures, nous proposons des benchmarks sur deux tâches : la recherche textuelle-image et la génération conditionnelle d’images.