ExtractGPT : Exploration du potentiel des grands modèles de langage pour l'extraction des valeurs d'attributs de produit

Les plateformes de commerce électronique nécessitent des données de produits structurées sous forme de paires attribut-valeur pour offrir des fonctionnalités telles que la recherche de produits facettée ou la comparaison de produits basée sur les attributs. Cependant, les vendeurs fournissent souvent des descriptions de produits non structurées, ce qui rend nécessaire l'extraction de paires attribut-valeur à partir de ces textes. Les méthodes d'extraction basées sur BERT requièrent de grandes quantités de données d'entraînement spécifiques à la tâche et ont du mal à traiter des valeurs d'attributs inconnues. Cet article explore l'utilisation de grands modèles linguistiques (LLMs) comme alternative plus efficace en termes de données d'entraînement et plus robuste. Nous proposons des modèles d'invocation pour des scénarios sans exemple (zero-shot) et avec peu d'exemples (few-shot), en comparant les représentations schématiques cibles textuelles et basées sur JSON. Nos expériences montrent que GPT-4 atteint le score F1 moyen le plus élevé, soit 85%, en utilisant des descriptions détaillées des attributs et des démonstrations. Llama-3-70B performe presque aussi bien, offrant une alternative open-source compétitive. GPT-4 dépasse la meilleure ligne de base PLM (Pre-trained Language Model) de 5% en termes de score F1. L'affinage (fine-tuning) de GPT-3.5 améliore les performances au niveau de GPT-4 mais réduit la capacité du modèle à généraliser aux valeurs d'attributs inconnues.