HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تخطي الطبقات الوسطى للمتحولات

Tim Lawson Laurence Aitchison

الملخص

الحساب الشرطي هو استراتيجية شائعة لجعل نماذج Transformers أكثر كفاءة. تركز الأساليب الحالية غالبًا على وحدات فردية (مثل طبقات خليط الخبراء) أو تتجاوز الطبقات بشكل مستقل عن بعضها البعض. ومع ذلك، أظهرت أبحاث التفسيرية أن الطبقات الوسطى من Transformers تتميز بوجود أكبر قدر من التكرار، وأن الطبقات المبكرة تقوم بتجميع المعلومات في مواقع الرموز. استرشادًا بهذه الأفكار، نقترح هندسة جديدة تتخطى عددًا متغيرًا من الطبقات من الوسط نحو الخارج بشكل ديناميكي. وبشكل خاص، يحدد آلية التحكم المستندة إلى التعلم ما إذا كان يجب تجاوز فترة متماثلة من الكتل المركزية بناءً على الإدخال، ويمنع آلية الانتباه المتحكم بها تواجد الرموز اللاحقة في مواقع الرموز التي تم تخطيها. يتم التحكم في المعايير الباقية بمخطط "ساندويتش" أو "PeriLayerNorm"، ويتم تنظيم ندرة الأبواب بخسارة تنظيمية متكيفة. كان هدفنا تقليص متطلبات الحساب للرموز "الأبسط" وتعزيز وجود هرم تمثيلي متعدد المستويات بالطوارئ، ولكن على نطاقات البحث التي أجريناها، لم يحقق نهجنا تحسينات في العلاقة بين متوسط الخطأ العرضي للتحقق والعمليات العائمة المتوقعة مقارنة بنماذج الأساس الكثيفة ذات الطبقات الأقل. نوفر رمزنا البرمجي في https://github.com/tim-lawson/skip-middle.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp