GLAMI-1M : Un jeu de données multilingue d'images et de textes sur la mode

Nous présentons GLAMI-1M : le plus grand ensemble de données et benchmark multilingue pour la classification d'images et de textes. Ce jeu de données contient des images de produits de mode accompagnées de descriptions, chacune dans l'une des 13 langues. La catégorisation en 191 classes est dotée d'annotations de haute qualité : l'ensemble des 100 000 images du jeu de test et 75 % des 1 million d'images du jeu d'entraînement ont été étiquetées par des humains. L'article présente des modèles de référence pour la classification d'images et de textes, démontrant que ce jeu de données pose un problème complexe de classification fine : le meilleur modèle EmbraceNet utilisant à la fois des caractéristiques visuelles et textuelles atteint une précision de 69,7 %. Des expériences avec un modèle Imagen modifié montrent également que le jeu de données est adapté à la génération d'images conditionnée par du texte. Le jeu de données, le code source et les points de contrôle des modèles sont publiés sur https://github.com/glami/glami-1m.