منذ 7 أشهر

الملخص

الحساب الشرطي هو استراتيجية شائعة لجعل نماذج Transformers أكثر كفاءة. تركز الأساليب الحالية غالبًا على وحدات فردية (مثل طبقات خليط الخبراء) أو تتجاوز الطبقات بشكل مستقل عن بعضها البعض. ومع ذلك، أظهرت أبحاث التفسيرية أن الطبقات الوسطى من Transformers تتميز بوجود أكبر قدر من التكرار، وأن الطبقات المبكرة تقوم بتجميع المعلومات في مواقع الرموز. استرشادًا بهذه الأفكار، نقترح هندسة جديدة تتخطى عددًا متغيرًا من الطبقات من الوسط نحو الخارج بشكل ديناميكي. وبشكل خاص، يحدد آلية التحكم المستندة إلى التعلم ما إذا كان يجب تجاوز فترة متماثلة من الكتل المركزية بناءً على الإدخال، ويمنع آلية الانتباه المتحكم بها تواجد الرموز اللاحقة في مواقع الرموز التي تم تخطيها. يتم التحكم في المعايير الباقية بمخطط "ساندويتش" أو "PeriLayerNorm"، ويتم تنظيم ندرة الأبواب بخسارة تنظيمية متكيفة. كان هدفنا تقليص متطلبات الحساب للرموز "الأبسط" وتعزيز وجود هرم تمثيلي متعدد المستويات بالطوارئ، ولكن على نطاقات البحث التي أجريناها، لم يحقق نهجنا تحسينات في العلاقة بين متوسط الخطأ العرضي للتحقق والعمليات العائمة المتوقعة مقارنة بنماذج الأساس الكثيفة ذات الطبقات الأقل. نوفر رمزنا البرمجي في https://github.com/tim-lawson/skip-middle.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار