HyperAIHyperAI
il y a 2 mois

Utilisation des MLL pour l’extraction et la normalisation des valeurs d’attributs de produit

Alexander Brinkmann; Nick Baumann; Christian Bizer
Utilisation des MLL pour l’extraction et la normalisation des valeurs d’attributs de produit
Résumé

Les offres de produits sur les sites de commerce électronique comprennent généralement un titre de produit et une description textuelle du produit. Pour permettre des fonctionnalités telles que la recherche de produits à facettes ou pour générer des tableaux de comparaison de produits, il est nécessaire d'extraire des paires attribut-valeur structurées à partir des titres et descriptions non structurés des produits, et de normaliser les valeurs extraites selon une échelle unique et unifiée pour chaque attribut. Cet article explore le potentiel d'utilisation des grands modèles linguistiques (LLMs), tels que GPT-3.5 et GPT-4, pour extraire et normaliser les valeurs d'attributs à partir des titres et descriptions des produits. Nous expérimentons avec différents modèles de prompts en zéro-shot et en few-shot pour instruire les LLMs à extraire et normaliser les paires attribut-valeur. Nous présentons le jeu de données de référence Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) pour nos expériences. WDC-PAVE comprend des offres de produits provenant de 59 sites web différents qui fournissent des annotations schema.org. Les offres appartiennent à cinq catégories de produits différentes, chacune ayant un ensemble spécifique d'attributs. Le jeu de données fournit des paires attribut-valeur vérifiées manuellement sous deux formes : (i) valeurs extraites directement et (ii) valeurs d'attributs normalisées. La normalisation des valeurs d'attributs nécessite que les systèmes effectuent les types d'opérations suivants : expansion des noms, généralisation, conversion des unités de mesure et manipulation de chaînes. Nos expériences montrent que GPT-4 surpasse les méthodes d'extraction basées sur les modèles linguistiques pré-entraînés (PLM) SU-OpenTag, AVEQA et MAVEQA de 10 %, atteignant un score F1 de 91 %. Pour l'extraction et la normalisation des valeurs d'attributs de produits, GPT-4 obtient une performance similaire à celle observée dans le scénario d'extraction, tout en étant particulièrement efficace en matière de manipulation de chaînes et d'expansion des noms.

Utilisation des MLL pour l’extraction et la normalisation des valeurs d’attributs de produit | Articles de recherche récents | HyperAI