HyperAIHyperAI
vor 2 Monaten

LLMs zur Extraktion und Normalisierung von Produktattributwerten

Alexander Brinkmann; Nick Baumann; Christian Bizer
LLMs zur Extraktion und Normalisierung von Produktattributwerten
Abstract

Produktangebote auf E-Commerce-Websites bestehen oft aus einem Produkttitel und einer textuellen Produktbeschreibung. Um Funktionen wie die facettenbasierte Produktsuche oder die Erstellung von Produktvergleichstabellen zu ermöglichen, ist es notwendig, strukturierte Attribut-Wert-Paare aus den unstrukturierten Produkttiteln und Beschreibungen zu extrahieren und die extrahierten Werte für jedes Attribut auf eine einheitliche Skala zu normalisieren. Diese Arbeit untersucht das Potenzial großer Sprachmodelle (LLMs), wie GPT-3.5 und GPT-4, zur Extraktion und Normalisierung von Attributwerten aus Produkttiteln und Beschreibungen. Wir experimentieren mit verschiedenen zero-shot- und few-shot-Aufforderungsvorlagen, um LLMs anzuweisen, Attribut-Wert-Paare zu extrahieren und zu normalisieren. Wir stellen den Benchmark-Datensatz Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) für unsere Experimente vor. WDC-PAVE besteht aus Produktangeboten von 59 verschiedenen Websites, die schema.org-Annotierungen bereitstellen. Die Angebote gehören zu fünf verschiedenen Produktkategorien, jede mit einem spezifischen Satz von Attributen. Der Datensatz bietet manuell verifizierte Attribut-Wert-Paare in zwei Formen: (i) direkt extrahierte Werte und (ii) normalisierte Attributwerte. Die Normalisierung der Attributwerte erfordert von Systemen folgende Operationstypen: Namenerweiterung, Verallgemeinerung, Umrechnung der MessEinheiten und String-Manipulation. Unsere Experimente zeigen, dass GPT-4 die PLM-basierten Extraktionsmethoden SU-OpenTag, AVEQA und MAVEQA um 10 % übertrifft und einen F1-Score von 91 % erreicht. Bei der Extraktion und Normalisierung von Produktattributwerten erreicht GPT-4 eine ähnliche Leistung wie bei der Extraktionsaufgabe, wobei es besonders stark in String-Manipulation und Namenerweiterung ist.

LLMs zur Extraktion und Normalisierung von Produktattributwerten | Neueste Forschungsarbeiten | HyperAI