vor 2 Monaten

ExtractGPT: Das Potenzial großer Sprachmodelle für die Extraktion von Produkteigenschaftswerten erforschen

Alexander Brinkmann; Roee Shraga; Christian Bizer

Abstract

E-Commerce-Plattformen benötigen strukturierte Produktdaten in Form von Attribut-Wert-Paaren, um Funktionen wie die facettenbasierte Produkt suche oder attributgestützte Produktvergleiche anzubieten. Allerdings liefern Verkäufer oft unstrukturierte Produktbeschreibungen, was eine Extraktion von Attribut-Wert-Paaren aus diesen Texten erforderlich macht. BERT-basierte Extraktionsmethoden erfordern große Mengen an aufgabenbezogenen Trainingsdaten und haben Schwierigkeiten mit unbekannten Attributwerten. In dieser Arbeit wird untersucht, ob große Sprachmodelle (LLMs) als alternativer Ansatz effizienter und robuster sind, was den Einsatz von Trainingsdaten betrifft. Wir schlagen Prompt-Vorlagen für Szenarien ohne vorherige Beispiele (Zero-Shot) und mit wenigen Beispielen (Few-Shot) vor und vergleichen textbasierte und JSON-basierte Ziel-Schemarepräsentationen. Unsere Experimente zeigen, dass GPT-4 mit detaillierten Attributbeschreibungen und Demonstrationen den höchsten durchschnittlichen F1-Wert von 85 % erreicht. Llama-3-70B performt fast ebenso gut und bietet eine wettbewerbsfähige Open-Source-Alternative. GPT-4 übertreffen die besten PLM-Baselines um 5 % im F1-Wert. Das Feinjustieren von GPT-3.5 erhöht die Leistung auf das Niveau von GPT-4, reduziert aber die Fähigkeit des Modells, auf unbekannte Attributwerte zu generalisieren.