منذ 11 أيام

BART: التدريب المسبق التسلسلي-السلس المُزيل للضوضاء للإ generación اللغوية الطبيعية والترجمة والفهم

Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer

عرض تفاصيل الورقة البحثية

BART: التدريب المسبق التسلسلي-السلس المُزيل للضوضاء للإ generación اللغوية الطبيعية والترجمة والفهم

الملخص

نقدّم نموذج BART، وهو مشفر تلقائي لإزالة الضوضاء مُدرّب لنموذج تسلسل إلى تسلسل. يتم تدريب BART من خلال (1) إتلاف النص باستخدام دالة ضوضاء عشوائية، و(2) تعلّم نموذج لإعادة بناء النص الأصلي. يعتمد النموذج على بنية ترنسفورمر القياسية المستخدمة في الترجمة الآلية العصبية، والتي، على الرغم من بساطتها، يمكن اعتبارها تعميمًا لنموذج BERT (بفضل مشفره ثنائي الاتجاه)، ونموذج GPT (بفضل مشفره من اليسار إلى اليمين)، بالإضافة إلى العديد من أساليب التدريب المسبق الحديثة الأخرى. قمنا بتقييم مجموعة من أساليب إدخال الضوضاء، ووجدنا أن أفضل الأداء يتحقق عند إعادة ترتيب جمل النص الأصلي عشوائيًا واستخدام تقنية جديدة تُسمى "الملء الداخلي" (in-filling)، حيث يتم استبدال فترات من النص برمز ماسك واحد. يُظهر BART كفاءة كبيرة عند التخصيص الدقيق (fine-tuning) لمهام إنشاء النص، كما يعمل بشكل جيد في مهام الفهم. ويحقق أداءً مماثلًا لأداء RoBERTa باستخدام موارد تدريب مماثلة على مجموعتي بيانات GLUE وSQuAD، ويحقق نتائج جديدة قياسية على مجموعة واسعة من مهام الحوار الاستنتاجي (abstractive dialogue) والأسئلة والأجوبة والملخصات، مع مكاسب تصل إلى 6 نقاط في مقياس ROUGE. كما يوفر BART زيادة قدرها 1.1 نقطة في مقياس BLEU مقارنة بنظام الترجمة العكسية (back-translation) في مهام الترجمة الآلية، مع تدريب مسبق فقط على اللغة الهدف. كما نُقدّم أيضًا تجارب تحليلية (ablation experiments) تعيد إنتاج أساليب تدريب مسبق أخرى ضمن إطار BART، بهدف قياس العوامل التي تؤثر أكثر على الأداء في المهام النهائية.