HyperAIHyperAI

Command Palette

Search for a command to run...

تكيف النماذج المُدرَّبة مسبقًا للتحويل من النص إلى النص لسلسلة نصية طويلة

Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih

الملخص

نقدّم دراسة تجريبية حول تكييف نموذج مُدرّب مسبقًا للنصوص إلى نصوص مدخلة طويلة. من خلال دراسة شاملة على ثلاثة محاور من خطوات التدريب المسبق — معمارية النموذج، والهدف التحسيني، وقاعدة التدريب المسبق — نقترح وصفة فعّالة لبناء نماذج ذات سياق طويل من نماذج قصيرة السياق الحالية. وبشكل محدد، نستبدل الانتباه الكامل في المحولات (Transformers) بانتباه مُعزّز بـ"تجميع كتل" (pooling-augmented blockwise attention)، ونُدرّب النموذج باستخدام مهمة توقع فترات مُغطاة (masked-span prediction) ذات طول متغير. وفيما يخص قاعدة التدريب المسبق، نجد أن استخدام وثائق قصيرة مُتسلسلة عشوائيًا من مجموعة كبيرة من الوثائق المفتوحة المجال يؤدي إلى أداء أفضل مقارنةً باستخدام قواعد بيانات وثائق طويلة موجودة مسبقًا، والتي غالبًا ما تكون محدودة في تغطيتها المجالية. وباستنادًا إلى هذه النتائج، قمنا ببناء نموذج سياق طويل يحقق أداءً تنافسيًا في مهام الاستجابة للأسئلة على النصوص الطويلة، ويُحدث حالة جديدة من الأداء القياسي (state of the art) على خمسة مجموعات بيانات لملخصات النصوص الطويلة، غالبًا ما يتفوق على الأساليب السابقة حتى مع نماذج أكبر حجمًا. تم إتاحة الكود الخاص بنا على الرابط التالي: https://github.com/facebookresearch/bart_ls.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp