DOCmT5: التدريب المسبق على مستوى المستند لنماذج اللغة متعددة اللغات

في هذه الورقة، نقدّم نموذج DOCmT5، وهو نموذج متعدد اللغات لتحويل التسلسل إلى تسلسل، تم تدريبه مسبقًا باستخدام بيانات وثائق متوازية على نطاق واسع. في حين ركّزت الطرق السابقة على استغلال البيانات المتوازية على مستوى الجملة، نسعى هنا إلى بناء نموذج مُدرّب مسبقًا عامّ يمكنه فهم وإنشاء الوثائق الطويلة. نقترح هدفًا تدريبيًا بسيطًا وفعالًا يُسمّى "ترجمة إعادة ترتيب الوثائق" (DrMT)، حيث يجب على النموذج ترجمة وثائق مُشوّشة ومُقنّعة. أظهر DrMT تحسينات مستمرة مقارنة بالأساليب القوية في مجموعة متنوعة من مهام التوليد على مستوى الوثيقة، بما في ذلك أكثر من 12 نقطة في معيار BLEU لترجمة الوثائق ضمن أزواج لغوية معروفة، وأكثر من 7 نقاط في BLEU لترجمة الوثائق ضمن أزواج لغوية غير معروفة، وأكثر من 3 نقاط في ROUGE-1 لتلخيص متعدد اللغات ضمن أزواج لغوية معروفة. وحققنا أفضل الأداء الحالي (SOTA) في مهام ترجمة الوثائق في WMT20 (De-En) و IWSLT15 (Zh-En). كما أجرينا تحليلًا واسع النطاق لعوامل مختلفة تتعلق بتدريب الوثائق، بما في ذلك (1) تأثير جودة بيانات التدريب المسبق، و(2) تأثير دمج التدريب الأحادي اللغة والمتعدد اللغات. ونخطط لجعل نقاط التحقق (checkpoints) الخاصة بنموذجنا متاحة للجمهور.