HyperAIHyperAI
il y a 2 mois

MAVE : Un Jeu de Données de Produits pour l’Extraction de Valeurs d’Attributs Multisources

Li Yang; Qifan Wang; Zac Yu; Anand Kulkarni; Sumit Sanghai; Bin Shu; Jon Elsas; Bhargav Kanagal
MAVE : Un Jeu de Données de Produits pour l’Extraction de Valeurs d’Attributs Multisources
Résumé

L'extraction de valeurs d'attributs fait référence à la tâche d'identifier les valeurs d'un attribut d'intérêt à partir des informations sur un produit. Les valeurs d'attributs de produits sont essentielles dans de nombreux scénarios du commerce électronique, tels que les robots de service client, le classement des produits, la recherche et les recommandations. Cependant, dans le monde réel, les valeurs d'attributs d'un produit sont souvent incomplètes et varient au fil du temps, ce qui entrave considérablement les applications pratiques. Dans cet article, nous présentons MAVE, un nouveau jeu de données conçu pour faciliter davantage la recherche en extraction de valeurs d'attributs de produits. MAVE est composé d'un ensemble curatif de 2,2 millions de produits provenant des pages Amazon, avec 3 millions d'annotations attribut-valeur réparties sur 1257 catégories uniques. MAVE présente quatre avantages principaux et uniques : Premièrement, MAVE est le plus grand jeu de données en extraction de valeurs d'attributs de produits en termes d'exemples attribut-valeur. Deuxièmement, MAVE inclut des représentations multi-sources issues du produit, ce qui capture l'information complète du produit avec une couverture élevée des attributs. Troisièmement, MAVE représente un ensemble plus diversifié d'attributs et de valeurs par rapport aux jeux de données précédents. Enfin, MAVE fournit un ensemble de tests très difficile en apprentissage sans supervision (zero-shot), comme nous le démontrons empiriquement dans les expériences. Nous proposons également une nouvelle approche qui extrait efficacement la valeur d'attribut à partir des informations multi-sources sur le produit. Nous menons des expériences approfondies avec plusieurs modèles baselines et montrons que MAVE est un jeu de données efficace pour la tâche d'extraction de valeurs d'attributs. Il s'agit également d'une tâche très difficile en extraction d'attributs sans supervision (zero-shot). Les données sont disponibles à l'adresse {\it \url{https://github.com/google-research-datasets/MAVE}}.

MAVE : Un Jeu de Données de Produits pour l’Extraction de Valeurs d’Attributs Multisources | Articles de recherche récents | HyperAI