Command Palette
Search for a command to run...
تمثيل الجمل متعدد اللغات بشكل ضخم للنقل العابر للغات دون تدريب مسبق وما بعده
تمثيل الجمل متعدد اللغات بشكل ضخم للنقل العابر للغات دون تدريب مسبق وما بعده
["name": "Mikel Artetxe" "affiliation": "University of the Basque Country (UPV/EHU)*" "email": "[email protected]" "name": "Holger Schwenk" "affiliation": "Facebook AI Research" "email": "[email protected]"]
الملخص
نقدم معمارية لتعلم تمثيلات الجمل المشتركة متعددة اللغات لـ 93 لغة، تنتمي إلى أكثر من 30 عائلة مختلفة وتكتب بـ 28 حرفًا مختلفًا. يستخدم نظامنا مشفّر BiLSTM واحدًا مع قاموس BPE مشترك لجميع اللغات، والذي يتم ربطه بمحلل فك تشفير مساعد ويتم تدريبه على نصوص متوازية متاحة للعامة. هذا يمكّننا من تعلم تصنيف فوق التضمينات الناتجة باستخدام بيانات مصنفة باللغة الإنجليزية فقط، ونقلها إلى أي من اللغات الـ 93 دون أي تعديل. أظهرت تجاربنا في الاستدلال اللغوي العابر للغات (مجموعة بيانات XNLI)، تصنيف الوثائق العابر للغات (مجموعة بيانات MLDoc) واستخراج النصوص المتوازية (مجموعة بيانات BUCC) فعالية نهجنا. كما نقدم مجموعة اختبار جديدة تتكون من جمل محاذاة في 112 لغة، وأظهرنا أن تضمينات الجمل لدينا تحصل على نتائج قوية في البحث عن التشابه متعدد اللغات حتى بالنسبة لللغات ذات الموارد المحدودة. يمكن الوصول إلى تنفيذنا ومُشفِّر التدريب المسبق ومجموعة الاختبار متعددة اللغات عبر الرابط: https://github.com/facebookresearch/LASER