HyperAIHyperAI
vor 2 Monaten

MAVE: Ein Produkt-Datensatz für die Extraktion von Attributwerten aus mehreren Quellen

Li Yang; Qifan Wang; Zac Yu; Anand Kulkarni; Sumit Sanghai; Bin Shu; Jon Elsas; Bhargav Kanagal
MAVE: Ein Produkt-Datensatz für die Extraktion von Attributwerten aus mehreren Quellen
Abstract

Die Extraktion von Attributwerten bezieht sich auf die Aufgabe, Werte eines interessierenden Attributs aus Produktinformationen zu identifizieren. Produktattributwerte sind in vielen E-Commerce-Szenarien wie Kundendienstbots, Produktranglisten, -abfragen und -empfehlungen essentiell. Im echten Leben sind jedoch die Attributwerte eines Produkts oft unvollständig und ändern sich im Laufe der Zeit, was die praktische Anwendung erheblich behindert. In dieser Arbeit stellen wir MAVE vor, einen neuen Datensatz, der die Forschung zur Extraktion von Produktattributwerten besser fördern soll. MAVE besteht aus einer sorgfältig zusammengestellten Sammlung von 2,2 Millionen Produkten von Amazon-Seiten, mit 3 Millionen Attribut-Wert-Annotierungen über 1257 einzigartige Kategorien. MAVE hat vier wesentliche und einzigartige Vorteile: Erstens ist MAVE der größte Datensatz für die Extraktion von Produktattributwerten in Bezug auf die Anzahl der Attribut-Wert-Beispiele. Zweitens enthält MAVE mehrquellige Darstellungen des Produkts, die umfassende Produktinformationen mit hoher Attributabdeckung erfassen. Drittens repräsentiert MAVE eine vielfältigere Menge an Attributen und Werten im Vergleich zu den bisherigen Datensätzen. Schließlich bietet MAVE eine sehr anspruchsvolle Nullschuss-Testmenge (zero-shot test set), wie wir in den Experimenten empirisch zeigen. Wir schlagen außerdem einen neuen Ansatz vor, der effektiv den Attributwert aus mehrquelligen Produktinformationen extrahiert. Wir führen umfangreiche Experimente mit mehreren Baselines durch und zeigen, dass MAVE ein effektiver Datensatz für die Aufgabe der Attributwertextraktion ist. Es stellt auch eine sehr herausfordernde Aufgabe bei der Nullschuss-Attributwertextraktion dar. Die Daten sind unter {\it \url{https://github.com/google-research-datasets/MAVE}} verfügbar.

MAVE: Ein Produkt-Datensatz für die Extraktion von Attributwerten aus mehreren Quellen | Neueste Forschungsarbeiten | HyperAI