منذ 16 أيام

تكيف النماذج المُدرَّبة مسبقًا للتحويل من النص إلى النص لسلسلة نصية طويلة

Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau Yih

الملخص

نقدّم دراسة تجريبية حول تكييف نموذج مُدرّب مسبقًا للنصوص إلى نصوص مدخلة طويلة. من خلال دراسة شاملة على ثلاثة محاور من خطوات التدريب المسبق — معمارية النموذج، والهدف التحسيني، وقاعدة التدريب المسبق — نقترح وصفة فعّالة لبناء نماذج ذات سياق طويل من نماذج قصيرة السياق الحالية. وبشكل محدد، نستبدل الانتباه الكامل في المحولات (Transformers) بانتباه مُعزّز بـ"تجميع كتل" (pooling-augmented blockwise attention)، ونُدرّب النموذج باستخدام مهمة توقع فترات مُغطاة (masked-span prediction) ذات طول متغير. وفيما يخص قاعدة التدريب المسبق، نجد أن استخدام وثائق قصيرة مُتسلسلة عشوائيًا من مجموعة كبيرة من الوثائق المفتوحة المجال يؤدي إلى أداء أفضل مقارنةً باستخدام قواعد بيانات وثائق طويلة موجودة مسبقًا، والتي غالبًا ما تكون محدودة في تغطيتها المجالية. وباستنادًا إلى هذه النتائج، قمنا ببناء نموذج سياق طويل يحقق أداءً تنافسيًا في مهام الاستجابة للأسئلة على النصوص الطويلة، ويُحدث حالة جديدة من الأداء القياسي (state of the art) على خمسة مجموعات بيانات لملخصات النصوص الطويلة، غالبًا ما يتفوق على الأساليب السابقة حتى مع نماذج أكبر حجمًا. تم إتاحة الكود الخاص بنا على الرابط التالي: https://github.com/facebookresearch/bart_ls.