
摘要
我们介绍GLAMI-1M:目前最大的多语言图像-文本分类数据集和基准测试。该数据集包含时尚产品的图像及其描述,每种描述使用13种语言中的一种。191个类别的分类具有高质量注释:测试集中所有10万张图像以及训练集中75%的100万张图像均为人工标注。论文展示了图像-文本分类的基线模型,表明该数据集提出了一个具有挑战性的细粒度分类问题:使用视觉和文本特征的最佳EmbraceNet模型达到了69.7%的准确率。通过修改后的Imagen模型进行的实验还表明,该数据集也适用于基于文本条件的图像生成。数据集、源代码和模型检查点已发布在https://github.com/glami/glami-1m