HyperAIHyperAI

Command Palette

Search for a command to run...

Longformer: نموذج التحويل الطويل المستند إلى المستندات الطويلة

Iz Beltagy Matthew E. Peters Arman Cohan

الملخص

النماذج المستندة إلى مُحَوِّل (Transformer) لا تتمكن من معالجة التسلسلات الطويلة بسبب عملية الانتباه الذاتي التي تتضاعف تربيعيًا مع طول التسلسل. ولحل هذه المشكلة، نقدم نموذج "لُونْفُورْمر" (Longformer) الذي يعتمد على آلية انتباه تتناسب خطياً مع طول التسلسل، مما يجعل من السهل معالجة المستندات التي تضم آلاف الرموز أو أكثر. تمثل آلية انتباه لونفُورمر بديلاً مباشرًا لآلية الانتباه الذاتي القياسية، حيث تدمج بين انتباه محلي مُحَدَّد بحُرُوف (نافذة محلية) وانتباه عالمي مُحفَّز بالمهام. ووفقًا للعمل السابق حول النماذج ذات التسلسلات الطويلة، قمنا بتقييم لونفُورمر في مهام نمذجة اللغة على مستوى الحروف، وحققنا نتائج رائدة على مجموعتي البيانات text8 و enwik8. على عكس معظم الأعمال السابقة، قمنا أيضًا بتدريب لونفُورمر مسبقًا ثم تحسينه دقيقًا (fine-tuning) على مجموعة متنوعة من المهام اللاحقة. وقد أظهر النموذج المُدرَّب مسبقًا بشكل متسق تفوقه على RoBERTa في المهام المتعلقة بالمستندات الطويلة، كما سجّل نتائج رائدة جديدة على مجموعتي البيانات WikiHop و TriviaQA. وأخيرًا، نقدّم نموذج "لونفُورمر-المحوِّل-الناتج" (Longformer-Encoder-Decoder أو LED)، وهو نسخة مُعدَّلة من لونفُورمر تدعم مهام التوليد التسلسلي الطويلة من نوع التسلسل إلى التسلسل، ونُظهِر فعاليته على مجموعة بيانات تلخيص الأوراق البحثية من arXiv.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Longformer: نموذج التحويل الطويل المستند إلى المستندات الطويلة | مستندات | HyperAI