PEGASUS: التدريب المسبق باستخدام الجمل المستخلصة ذات الفجوات للاستخلاص الموجز

أظهرت الدراسات الحديثة أن تدريب نماذج Transformers مسبقًا باستخدام أهداف ذاتية التدريب (self-supervised) على كميات ضخمة من النصوص أحرزت نجاحًا كبيرًا عند تحسينها لمهام معالجة اللغة الطبيعية (NLP) الهابطة، بما في ذلك تلخيص النصوص. ومع ذلك، لم يتم استكشاف أهداف تدريب مُعدّة خصيصًا لتلخيص النصوص الاستخلاصي (abstractive text summarization). علاوة على ذلك، يُعاني المجال من نقص في التقييم المنهجي عبر مجالات متنوعة. في هذه الدراسة، نقترح تدريب نماذج كبيرة قائمة على مُشِّفر-مُفَسِّر (encoder-decoder) مبنية على Transformer على كميات هائلة من النصوص باستخدام هدف ذاتي تدريب جديد. في نموذج PEGASUS، يتم إزالة أو تمويه الجمل المهمة من المستند المدخل، ثم تُولَّد جميعها معًا كتسلسل مخرج واحد من الجمل المتبقية، وهو ما يشبه ملخصًا استخلاصيًا (extractive summary). قمنا بتقييم أفضل نموذج PEGASUS لدينا على 12 مهمة تلخيص هابطة تشمل أخبار، علوم، قصص، تعليمات، بريد إلكتروني، براءات اختراع، ومشاريع قوانين تشريعية. أظهرت التجارب أداءً متميزًا على جميع 12 مجموعة بيانات، وفقًا لمقاييس ROUGE. كما أظهر النموذج أداءً مدهشًا في مهام التلخيص ذات الموارد المحدودة، حيث تفوق على النتائج السابقة للحالة المثلى في 6 مجموعات بيانات، باستخدام فقط 1000 مثال. وأخيرًا، قمنا بتأكيدها من خلال تقييم بشري، وأظهرنا أن ملخصات النموذج تصل إلى مستوى الأداء البشري على عدة مجموعات بيانات.