HyperAIHyperAI
منذ 2 أشهر

MASSIVE: مجموعة بيانات متعددة اللغات لفهم اللغة الطبيعية تحتوي على مليون مثال و51 لغة منوعة نحوياً

Jack FitzGerald; Christopher Hench; Charith Peris; Scott Mackie; Kay Rottmann; Ana Sanchez; Aaron Nash; Liam Urbach; Vishesh Kakarala; Richa Singh; Swetha Ranganath; Laurie Crist; Misha Britan; Wouter Leeuwis; Gokhan Tur; Prem Natarajan
MASSIVE: مجموعة بيانات متعددة اللغات لفهم اللغة الطبيعية تحتوي على مليون مثال و51 لغة منوعة نحوياً
الملخص

نقدم مجموعة البيانات الضخمة (MASSIVE)--حزمة الموارد متعددة اللغات لشركة أمازون (SLURP) لملء الفتحات، تصنيف النوايا، وتقييم المساعد الافتراضي. تحتوي مجموعة البيانات MASSIVE على مليون جملة واقعية متوازية ومصنفة للمساعد الافتراضي تغطي 51 لغة، 18 مجالًا، 60 نية، و55 فتحة. تم إنشاء MASSIVE من خلال تكليف مترجمين محترفين بتوطين مجموعة البيانات SLURP التي كانت باللغة الإنجليزية فقط إلى 50 لغة متنوعة من حيث البنية اللغوية من 29 فصيلة. كما نقدم نتائج النمذجة على XLM-R و mT5، بما في ذلك دقة التوافق الدقيق، دقة تصنيف النوايا، ودرجة F1 لملء الفتحات. لقد أطلقنا مجموعة بياناتنا وكود النمذجة والنموذج بشكل عام.

MASSIVE: مجموعة بيانات متعددة اللغات لفهم اللغة الطبيعية تحتوي على مليون مثال و51 لغة منوعة نحوياً | أحدث الأوراق البحثية | HyperAI