Longformer: نموذج التحويل الطويل المستند إلى المستندات الطويلة

النماذج المستندة إلى مُحَوِّل (Transformer) لا تتمكن من معالجة التسلسلات الطويلة بسبب عملية الانتباه الذاتي التي تتضاعف تربيعيًا مع طول التسلسل. ولحل هذه المشكلة، نقدم نموذج "لُونْفُورْمر" (Longformer) الذي يعتمد على آلية انتباه تتناسب خطياً مع طول التسلسل، مما يجعل من السهل معالجة المستندات التي تضم آلاف الرموز أو أكثر. تمثل آلية انتباه لونفُورمر بديلاً مباشرًا لآلية الانتباه الذاتي القياسية، حيث تدمج بين انتباه محلي مُحَدَّد بحُرُوف (نافذة محلية) وانتباه عالمي مُحفَّز بالمهام. ووفقًا للعمل السابق حول النماذج ذات التسلسلات الطويلة، قمنا بتقييم لونفُورمر في مهام نمذجة اللغة على مستوى الحروف، وحققنا نتائج رائدة على مجموعتي البيانات text8 و enwik8. على عكس معظم الأعمال السابقة، قمنا أيضًا بتدريب لونفُورمر مسبقًا ثم تحسينه دقيقًا (fine-tuning) على مجموعة متنوعة من المهام اللاحقة. وقد أظهر النموذج المُدرَّب مسبقًا بشكل متسق تفوقه على RoBERTa في المهام المتعلقة بالمستندات الطويلة، كما سجّل نتائج رائدة جديدة على مجموعتي البيانات WikiHop و TriviaQA. وأخيرًا، نقدّم نموذج "لونفُورمر-المحوِّل-الناتج" (Longformer-Encoder-Decoder أو LED)، وهو نسخة مُعدَّلة من لونفُورمر تدعم مهام التوليد التسلسلي الطويلة من نوع التسلسل إلى التسلسل، ونُظهِر فعاليته على مجموعة بيانات تلخيص الأوراق البحثية من arXiv.