المحولات الهرمية أكثر كفاءة في نماذج اللغة

تحقيق نماذج المحوّل (Transformer) نتائج مذهلة في العديد من مهام معالجة اللغة الطبيعية (NLP) ونمذجة التسلسلات. وبشكل ملحوظ، يمكن لنموذج المحوّل التعامل مع التسلسلات الطويلة، مما يمكّنه من إنتاج مخرجات طويلة ومتماسكة: مثل الفقرات الكاملة التي تُولّد بواسطة GPT-3، أو الصور المُنظمة جيدًا التي تُنتج بواسطة DALL-E. وعلى الرغم من إعجابنا بهذه النماذج الكبيرة للغة، إلا أنها تُعدّ غير فعّالة ومرتفعة التكلفة، ما يحدّ من تطبيقاتها ووصولها. نحن نفترض أن امتلاك بنية هرمية صريحة هو المفتاح الذي يجعل نماذج المحوّل قادرة على التعامل بكفاءة مع التسلسلات الطويلة. ولتأكيد هذا الادعاء، درسنا أولًا طرقًا مختلفة لتقليص وتوسيع التنشيطات (activations) داخل نماذج المحوّل بهدف جعلها هرمية. واستخدمنا أفضل طبقات التقليل والتوسيع من حيث الأداء لبناء نموذج "Hourglass" – وهو نموذج لغوي هرمي مبني على المحوّل. يتفوّق نموذج Hourglass على النموذج الأساسي (baseline) للمحوّل عند استخدام نفس كمية الحساب، ويمكنه تحقيق نفس النتائج بكفاءة أعلى. وبشكل خاص، سجّل Hourglass أداءً جديدًا على مستوى الحالة (state-of-the-art) في مهمة إنشاء صور ImageNet32، كما ساهم في تحسين كفاءة نمذجة اللغة على معيار enwik8 المعروف جيدًا.