HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات الهرمية أكثر كفاءة في نماذج اللغة

Piotr Nawrot Szymon Tworkowski Michał Tyrolski Łukasz Kaiser Yuhuai Wu Christian Szegedy Henryk Michalewski

الملخص

تحقيق نماذج المحوّل (Transformer) نتائج مذهلة في العديد من مهام معالجة اللغة الطبيعية (NLP) ونمذجة التسلسلات. وبشكل ملحوظ، يمكن لنموذج المحوّل التعامل مع التسلسلات الطويلة، مما يمكّنه من إنتاج مخرجات طويلة ومتماسكة: مثل الفقرات الكاملة التي تُولّد بواسطة GPT-3، أو الصور المُنظمة جيدًا التي تُنتج بواسطة DALL-E. وعلى الرغم من إعجابنا بهذه النماذج الكبيرة للغة، إلا أنها تُعدّ غير فعّالة ومرتفعة التكلفة، ما يحدّ من تطبيقاتها ووصولها. نحن نفترض أن امتلاك بنية هرمية صريحة هو المفتاح الذي يجعل نماذج المحوّل قادرة على التعامل بكفاءة مع التسلسلات الطويلة. ولتأكيد هذا الادعاء، درسنا أولًا طرقًا مختلفة لتقليص وتوسيع التنشيطات (activations) داخل نماذج المحوّل بهدف جعلها هرمية. واستخدمنا أفضل طبقات التقليل والتوسيع من حيث الأداء لبناء نموذج "Hourglass" – وهو نموذج لغوي هرمي مبني على المحوّل. يتفوّق نموذج Hourglass على النموذج الأساسي (baseline) للمحوّل عند استخدام نفس كمية الحساب، ويمكنه تحقيق نفس النتائج بكفاءة أعلى. وبشكل خاص، سجّل Hourglass أداءً جديدًا على مستوى الحالة (state-of-the-art) في مهمة إنشاء صور ImageNet32، كما ساهم في تحسين كفاءة نمذجة اللغة على معيار enwik8 المعروف جيدًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp