2 个月前

使用大型语言模型进行产品属性值的提取和规范化

Alexander Brinkmann; Nick Baumann; Christian Bizer
使用大型语言模型进行产品属性值的提取和规范化
摘要

电子商务网站上的产品报价通常包括产品标题和文本形式的产品描述。为了实现诸如多面体产品搜索或多面体产品比较表等功能,需要从非结构化的产品标题和描述中提取结构化的属性值对,并将提取的值归一化到每个属性的单一、统一尺度上。本文探讨了使用大型语言模型(LLMs),如GPT-3.5和GPT-4,从产品标题和描述中提取并归一化属性值的潜力。我们尝试了不同的零样本和少样本提示模板,以指导大型语言模型提取并归一化属性值对。我们引入了Web Data Commons - 产品属性值提取(WDC-PAVE)基准数据集用于实验。WDC-PAVE包含来自59个不同网站的产品报价,这些网站提供了schema.org注释。报价属于五个不同的产品类别,每个类别都有一组特定的属性。该数据集提供了两种形式的手动验证属性值对:(i) 直接提取的值和 (ii) 归一化的属性值。属性值的归一化要求系统执行以下类型的操作:名称扩展、泛化、单位转换和字符串处理。我们的实验表明,GPT-4在性能上超过了基于预训练语言模型(PLM)的提取方法SU-OpenTag、AVEQA和MAVEQA 10%,达到了91%的F1分数。在产品属性值的提取和归一化方面,GPT-4的表现与提取场景相似,尤其在字符串处理和名称扩展方面表现出色。

使用大型语言模型进行产品属性值的提取和规范化 | 最新论文 | HyperAI超神经