HyperAIHyperAI

Command Palette

Search for a command to run...

استخدام متحول مُدرب مسبق لتقديم تلخيص نصوص بكفاءة عالية من حيث العيّنات

Urvashi Khandelwal Kevin Clark Dan Jurafsky Łukasz Kaiser

الملخص

قد أدى تدريب النماذج اللغوية (LM) إلى تحقيق أداء مثير للإعجاب وكفاءة عينات في مجموعة متنوعة من مهام فهم اللغة. ومع ذلك، لا يزال غير واضح كيفية استخدام أفضل للنماذج اللغوية المدربة مسبقًا في مهام التوليد مثل التلخيص الاستخراجي، خاصة لتعزيز كفاءة العينات. في هذه الإعدادات التسلسلية-التوليدية، قام العمل السابق بتجربة تحميل الأوزان المدربة مسبقًا في شبكات المُشفِّر (encoder) و/أو المُفكِّك (decoder)، لكنه استخدم أوزان انتباه المُشفِّر-المُفكِّك التي لم يتم تدريبها مسبقًا. بدلاً من ذلك، نحن نستخدم شبكة مُفكِّك فقط مدربة مسبقًا، حيث يقوم نفس نموذج Transformer LM بتشفير المصدر وتوليد الملخص. هذا يضمن أن جميع المعاملات في الشبكة، بما في ذلك تلك التي تحكم الانتباه على حالات المصدر، قد تم تدريبها قبل خطوة التعديل الدقيق. تظهر التجارب على مجموعة بيانات CNN/Daily Mail أن نموذج Transformer LM المدرب لدينا بشكل كبير يتفوق على شبكات Transformer المُشفِّر-المُفكِّك المدربة مسبقًا في إعدادات البيانات المحدودة. على سبيل المثال، يحقق 13.1 ROUGE-2 باستخدام فقط 1% من بيانات التدريب (حوالي 3000 مثال)، بينما تسجل النماذج المُشفِّر-المُفكِّك المدربة مسبقًا درجة 2.3 ROUGE-2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp