HyperAIHyperAI

Command Palette

Search for a command to run...

ExtractGPT : Exploration du potentiel des grands modèles de langage pour l'extraction des valeurs d'attributs de produit

Alexander Brinkmann Roe Shraga Christian Bizer

Résumé

Les plateformes de commerce électronique nécessitent des données de produits structurées sous forme de paires attribut-valeur pour offrir des fonctionnalités telles que la recherche de produits facettée ou la comparaison de produits basée sur les attributs. Cependant, les vendeurs fournissent souvent des descriptions de produits non structurées, ce qui rend nécessaire l'extraction de paires attribut-valeur à partir de ces textes. Les méthodes d'extraction basées sur BERT requièrent de grandes quantités de données d'entraînement spécifiques à la tâche et ont du mal à traiter des valeurs d'attributs inconnues. Cet article explore l'utilisation de grands modèles linguistiques (LLMs) comme alternative plus efficace en termes de données d'entraînement et plus robuste. Nous proposons des modèles d'invocation pour des scénarios sans exemple (zero-shot) et avec peu d'exemples (few-shot), en comparant les représentations schématiques cibles textuelles et basées sur JSON. Nos expériences montrent que GPT-4 atteint le score F1 moyen le plus élevé, soit 85%, en utilisant des descriptions détaillées des attributs et des démonstrations. Llama-3-70B performe presque aussi bien, offrant une alternative open-source compétitive. GPT-4 dépasse la meilleure ligne de base PLM (Pre-trained Language Model) de 5% en termes de score F1. L'affinage (fine-tuning) de GPT-3.5 améliore les performances au niveau de GPT-4 mais réduit la capacité du modèle à généraliser aux valeurs d'attributs inconnues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp