2 个月前
MAVE:一个多源属性值提取的产品数据集
Li Yang; Qifan Wang; Zac Yu; Anand Kulkarni; Sumit Sanghai; Bin Shu; Jon Elsas; Bhargav Kanagal

摘要
属性值提取是指从产品信息中识别出感兴趣的属性值的任务。在许多电子商务场景中,如客户服务机器人、产品排名、检索和推荐,产品属性值都是至关重要的。然而,在现实世界中,产品的属性值通常不完整且随时间变化,这极大地阻碍了实际应用。本文介绍了MAVE,一个旨在更好地促进产品属性值提取研究的新数据集。MAVE由亚马逊页面上的220万件精心挑选的产品组成,涵盖了1257个独特类别的300万个属性-值注释。MAVE具有四个主要且独特的优点:首先,按属性-值示例数量计算,MAVE是最大的产品属性值提取数据集。其次,MAVE包括来自产品的多源表示,这些表示捕捉了完整的产品信息并具有高属性覆盖率。第三,相对于先前的数据集所涵盖的内容,MAVE代表了一组更为多样化的属性和值。最后,MAVE提供了一个极具挑战性的零样本测试集,我们在实验中对此进行了实证说明。我们进一步提出了一种新颖的方法,能够有效地从多源产品信息中提取属性值。我们进行了广泛的实验,并与多个基线模型进行了对比,结果表明MAVE是一个有效的数据集用于属性值提取任务,并且在零样本属性提取方面也是一项非常具有挑战性的任务。数据集可在{\it \url{https://github.com/google-research-datasets/MAVE}}获取。