HyperAIHyperAI
vor 2 Monaten

MASSIVE: Ein 1-Mio.-Beispiel-Datensatz für mehrsprachiges natürlichsprachliches Verständnis mit 51 typologisch diversen Sprachen

Jack FitzGerald; Christopher Hench; Charith Peris; Scott Mackie; Kay Rottmann; Ana Sanchez; Aaron Nash; Liam Urbach; Vishesh Kakarala; Richa Singh; Swetha Ranganath; Laurie Crist; Misha Britan; Wouter Leeuwis; Gokhan Tur; Prem Natarajan
MASSIVE: Ein 1-Mio.-Beispiel-Datensatz für mehrsprachiges natürlichsprachliches Verständnis mit 51 typologisch diversen Sprachen
Abstract

Wir stellen den MASSIVE-Datensatz vor – das mehrsprachige Amazon SLURP-Paket (SLURP) für Slot-Füllung, Intent-Klassifikation und Bewertung virtueller Assistenten. MASSIVE enthält 1 Mio. realistische, parallele, annotierte Aussagen von virtuellen Assistenten in 51 Sprachen, 18 Domänen, 60 Intents und 55 Slots. Der Datensatz wurde erstellt, indem professionelle Übersetzer das nur auf Englisch verfügbare SLURP-Datensatz in 50 sprachtypologisch vielfältige Sprachen aus 29 Genres lokalisierten. Wir präsentieren auch Modellierungsergebnisse für XLM-R und mT5, einschließlich der exakten Übereinstimmungsrate, der Intent-Klassifikationsgenauigkeit und des Slot-Füllungs-F1-Scores. Unser Datensatz, die Modellierungscode und die Modelle wurden öffentlich freigegeben.

MASSIVE: Ein 1-Mio.-Beispiel-Datensatz für mehrsprachiges natürlichsprachliches Verständnis mit 51 typologisch diversen Sprachen | Neueste Forschungsarbeiten | HyperAI