MASSIVE: Ein 1-Mio.-Beispiel-Datensatz für mehrsprachiges natürlichsprachliches Verständnis mit 51 typologisch diversen Sprachen

Wir stellen den MASSIVE-Datensatz vor – das mehrsprachige Amazon SLURP-Paket (SLURP) für Slot-Füllung, Intent-Klassifikation und Bewertung virtueller Assistenten. MASSIVE enthält 1 Mio. realistische, parallele, annotierte Aussagen von virtuellen Assistenten in 51 Sprachen, 18 Domänen, 60 Intents und 55 Slots. Der Datensatz wurde erstellt, indem professionelle Übersetzer das nur auf Englisch verfügbare SLURP-Datensatz in 50 sprachtypologisch vielfältige Sprachen aus 29 Genres lokalisierten. Wir präsentieren auch Modellierungsergebnisse für XLM-R und mT5, einschließlich der exakten Übereinstimmungsrate, der Intent-Klassifikationsgenauigkeit und des Slot-Füllungs-F1-Scores. Unser Datensatz, die Modellierungscode und die Modelle wurden öffentlich freigegeben.