فهم النص الطويل بكفاءة باستخدام نماذج النص القصير

النماذج اللغوية المُدرَّبة مسبقًا المستندة إلى المُحَوِّل (Transformer-based pretrained language models (LMs)) شائعة جدًا في فهم اللغة الطبيعية، لكنها لا يمكن تطبيقها على التسلسلات الطويلة مثل القصص أو المقالات العلمية أو المستندات الطويلة بسبب تعقيدها التربيعي. وعلى الرغم من اقتراح عدد كبير من النماذج المُحسَّنة المُعتمدة على المُحَوِّل، فإنها غالبًا ما تعتمد على تنفيذات مخصصة تتطلب تدريبًا مسبقًا مكلفًا من الصفر. في هذه الدراسة، نقترح SLED: SLiding-Encoder and Decoder، وهي طريقة بسيطة لمعالجة التسلسلات الطويلة، تعيد استخدام النماذج المُدرَّبة مسبقًا للنصوص القصيرة وتعتمد على موثوقيتها المُثبتة. وبشكل محدد، نقسم المدخلات إلى كتل متداخلة، ونُشفِّر كل كتلة باستخدام مُشفِّر نموذج لغوي قصير، ثم نستخدم المُفكِّك المُدرَّب مسبقًا لدمج المعلومات عبر الكتل (الدمج في المُفكِّك). ونُظهِر من خلال تجارب مُحكَمة أن SLED تُقدِّم استراتيجية مُجدية لفهم النصوص الطويلة، ونُقيِّم نهجنا على مجموعة بيانات SCROLLS، التي تضم سبع مجموعات بيانات في نطاق واسع من مهام فهم اللغة. ونجد أن SLED تنافس النماذج المتخصصة التي قد تكون أكبر بنسبة تصل إلى 50 مرة، وتحتاج إلى خطوة تدريب مسبق مخصصة ومكلفة.