منذ 2 أشهر

تمثيل الجمل متعدد اللغات بشكل ضخم للنقل العابر للغات دون تدريب مسبق وما بعده

Mikel Artetxe; Holger Schwenk

الملخص

نقدم معمارية لتعلم تمثيلات الجمل المشتركة متعددة اللغات لـ 93 لغة، تنتمي إلى أكثر من 30 عائلة مختلفة وتكتب بـ 28 حرفًا مختلفًا. يستخدم نظامنا مشفّر BiLSTM واحدًا مع قاموس BPE مشترك لجميع اللغات، والذي يتم ربطه بمحلل فك تشفير مساعد ويتم تدريبه على نصوص متوازية متاحة للعامة. هذا يمكّننا من تعلم تصنيف فوق التضمينات الناتجة باستخدام بيانات مصنفة باللغة الإنجليزية فقط، ونقلها إلى أي من اللغات الـ 93 دون أي تعديل. أظهرت تجاربنا في الاستدلال اللغوي العابر للغات (مجموعة بيانات XNLI)، تصنيف الوثائق العابر للغات (مجموعة بيانات MLDoc) واستخراج النصوص المتوازية (مجموعة بيانات BUCC) فعالية نهجنا. كما نقدم مجموعة اختبار جديدة تتكون من جمل محاذاة في 112 لغة، وأظهرنا أن تضمينات الجمل لدينا تحصل على نتائج قوية في البحث عن التشابه متعدد اللغات حتى بالنسبة لللغات ذات الموارد المحدودة. يمكن الوصول إلى تنفيذنا ومُشفِّر التدريب المسبق ومجموعة الاختبار متعددة اللغات عبر الرابط: https://github.com/facebookresearch/LASER