بريميرا: التدريب المسبق للجملة المُقنعة القائمة على الهرم لتلخيص المستندات المتعددة

نقدم نموذج PRIMERA، وهو نموذج مُدرَّب مسبقًا لتمثيل الوثائق المتعددة مع التركيز على تلخيص النصوص، ويقلل من الحاجة إلى هياكل مخصصة لكل مجموعة بيانات، وكذلك كميات كبيرة من البيانات المُعلَّمة التي تتطلب تدريبًا دقيقًا. يستخدم PRIMERA هدفًا مُدرَّبًا مسبقًا جديدًا اقترحناه، مصممًا لتعليم النموذج على ربط المعلومات وتجميعها عبر الوثائق المختلفة. كما يستخدم نماذج تحويلية فعالة (encoder-decoder) لتبسيط معالجة الوثائق المُترابطة. وقد أظهرت تجارب واسعة على 6 مجموعات بيانات لملخصات الوثائق المتعددة من 3 مجالات مختلفة، في بيئات الصفرية (zero-shot)، والقليلة (few-shot)، والمعتمدة على التدريب الكامل (full-supervised)، تفوق PRIMERA على النماذج الحالية الأفضل في المجال (state-of-the-art) المخصصة لكل مجموعة بيانات، وكذلك النماذج المُدرَّبة مسبقًا، في معظم هذه البيئات وبفارق كبير. يمكن العثور على الكود والنماذج المُدرَّبة مسبقًا في الرابط: \url{https://github.com/allenai/PRIMER}.