تعلم متجهات الكلمات لـ 157 لغة

تم تطبيق تمثيلات الكلمات الموزعة، أو متجهات الكلمات، مؤخرًا على العديد من المهام في معالجة اللغة الطبيعية، مما أدى إلى تحقيق أفضل الأداء. ويعتبر العنصر الرئيسي لتطبيق هذه التمثيلات بنجاح هو تدريبها على مجموعات نصوص كبيرة جدًا واستخدام هذه النماذج المدربة مسبقًا في المهام اللاحقة. في هذا البحث، نصف كيف قمنا بتدريب مثل هذه التمثيلات عالية الجودة لـ 157 لغة. استخدمنا مصدرَين للبيانات لتدريب هذه النماذج: الموسوعة الحرة عبر الإنترنت ويكيبيديا، والبيانات من مشروع الزحف المشترك (Common Crawl). كما نقدم ثلاثة مجموعات بيانات جديدة لتقييم هذه المتجهات الكلامية، وهي خاصة باللغة الفرنسية واللغة الهندية واللغة البولندية. وأخيرًا، نقيم متجهات الكلمات التي قمنا بتدريبها مسبقًا على 10 لغات يوجد لها مجموعات بيانات تقييمية، مما يظهر أداءً قويًا للغاية مقارنة بالنماذج السابقة.