HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه ذي الرأس الواحد RNN: توقّف عن التفكير بعقلك

Stephen Merity

الملخص

تُركز الطرق الرائدة في نمذجة اللغة جميعها على مسلسلات تلفزيونية من طفولتي – وبشكل خاص "الروبوتات" (Transformers) و"شارع السّمسم" (Sesame Street). كل شيء يدور حول "الروبوتات" هذا، والروبوتات تلك، وها نحن نستثمر في حرق مُضخَّم من وحدات معالجة الرسوميات (GPU) ووحدات معالجة التوافقيات (TPU) وشرائح محاكاة عصبية بمقاييس واسعة. أما نحن، فنختار المسار السهل القائم على تقنيات قديمة ومحكمة، مع أسمٍ مُبتكر مستوحى من التشفير: نموذج الانتباه ذا الرأس الواحد والمتسلسل (SHA-RNN). الهدف الوحيد للمؤلف هو إظهار أن قد تكون كل ميدان التطور قد اتجه إلى مسار مختلف لو كنا قد اهتممنا بحرفية أسمٍ مختلفة قليلاً ونتيجة مختلفة قليلاً. نأخذ نموذج لغة قويًا سابقًا يعتمد فقط على مُدخلات LSTMs المملة، ونُحسّنه ليصل إلى مستوى قريب جدًا من أداء النماذج الحديثة على مستوى البايت في معيار enwik8، مع تقليل الفجوة إلى حدٍ يُعدّ "بمدى رمية حجر". لم يخضع هذا العمل لأي تحسين مكثف للبارامترات، بل نشأ كليًا على جهاز كمبيوتر عادي، أدى إلى ارتفاع درجة حرارة شقة المؤلف الصغيرة في وسط صيف سان فرانسسكو بشكل مفرط. يمكن تحقيق النتائج النهائية في غضون 24 ساعة تقريبًا على وحدة معالجة واحدة (GPU) فقط، نظرًا لصبر المؤلف المحدود. كما يمكن توسيع آلية الانتباه بسهولة لدعم سياقات كبيرة مع استهلاك حسابي ضئيل. خذ ذلك، "شارع السّمسم".


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp