HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة اللغة على مستوى الحرف باستخدام انتباه ذاتي أعمق

Rami Al-Rfou Dokook Choe Noah Constant Mandy Guo Llion Jones

الملخص

أظهرت شبكات LSTM وأنواع أخرى من شبكات RNN أداءً قويًا في نمذجة اللغة على مستوى الحروف. يتم تدريب هذه النماذج عادةً باستخدام الخلفية المقطوعة للانتشار العكسي عبر الزمن، وغالبًا ما يُفترض أن نجاحها ينبع من قدرتها على تذكر السياقات طويلة الأجل. في هذا البحث، نوضح أن نموذج التحويل العميق (ذو 64 طبقة) مع سياق ثابت يتفوق على أنواع RNN بفارق كبير، حيث حقق أفضل الأداء على معيارين شهيرين: 1.13 بت لكل حرف على مجموعة بيانات text8 و1.06 على مجموعة بيانات enwik8. لكي نحصل على نتائج جيدة عند هذا المستوى من العمق، نوضح أنه من المهم إضافة خسائر مساعدة، سواء في طبقات الشبكة الوسيطة أو في مواقع التسلسل الوسيطة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نمذجة اللغة على مستوى الحرف باستخدام انتباه ذاتي أعمق | مستندات | HyperAI