الانتباه ذي الرأس الواحد RNN: توقّف عن التفكير بعقلك

تُركز الطرق الرائدة في نمذجة اللغة جميعها على مسلسلات تلفزيونية من طفولتي – وبشكل خاص "الروبوتات" (Transformers) و"شارع السّمسم" (Sesame Street). كل شيء يدور حول "الروبوتات" هذا، والروبوتات تلك، وها نحن نستثمر في حرق مُضخَّم من وحدات معالجة الرسوميات (GPU) ووحدات معالجة التوافقيات (TPU) وشرائح محاكاة عصبية بمقاييس واسعة. أما نحن، فنختار المسار السهل القائم على تقنيات قديمة ومحكمة، مع أسمٍ مُبتكر مستوحى من التشفير: نموذج الانتباه ذا الرأس الواحد والمتسلسل (SHA-RNN). الهدف الوحيد للمؤلف هو إظهار أن قد تكون كل ميدان التطور قد اتجه إلى مسار مختلف لو كنا قد اهتممنا بحرفية أسمٍ مختلفة قليلاً ونتيجة مختلفة قليلاً. نأخذ نموذج لغة قويًا سابقًا يعتمد فقط على مُدخلات LSTMs المملة، ونُحسّنه ليصل إلى مستوى قريب جدًا من أداء النماذج الحديثة على مستوى البايت في معيار enwik8، مع تقليل الفجوة إلى حدٍ يُعدّ "بمدى رمية حجر". لم يخضع هذا العمل لأي تحسين مكثف للبارامترات، بل نشأ كليًا على جهاز كمبيوتر عادي، أدى إلى ارتفاع درجة حرارة شقة المؤلف الصغيرة في وسط صيف سان فرانسسكو بشكل مفرط. يمكن تحقيق النتائج النهائية في غضون 24 ساعة تقريبًا على وحدة معالجة واحدة (GPU) فقط، نظرًا لصبر المؤلف المحدود. كما يمكن توسيع آلية الانتباه بسهولة لدعم سياقات كبيرة مع استهلاك حسابي ضئيل. خذ ذلك، "شارع السّمسم".