17 天前

FooDI-ML:一个大规模多语言食品、饮料和杂货图像与描述数据集

David Amat Olóndriz, Ponç Palau Puigdevall, Adrià Salvador Palau
FooDI-ML:一个大规模多语言食品、饮料和杂货图像与描述数据集
摘要

本文介绍了FooDI-ML数据集。该数据集包含超过150万张唯一图像,以及超过950万条来自Glovo应用的商店名称、产品名称、描述信息和商品分类信息。所提供的数据涵盖欧洲、中东、非洲及拉丁美洲37个国家的食品、饮料和杂货类商品。数据集共包含33种语言,其中包括来自东欧和西亚国家的87万条语言样本,如乌克兰语和哈萨克语,这些语言在以往公开的视觉-语言数据集中长期处于代表性不足的状态。此外,数据集还包含西班牙语、英语等广泛使用的语言。为促进后续研究,我们还提供了两项任务的基准测试:文本-图像检索与条件图像生成。

FooDI-ML:一个大规模多语言食品、饮料和杂货图像与描述数据集 | 最新论文 | HyperAI超神经