HyperAIHyperAI
منذ 2 أشهر

تعلم تخطي الطبقات الوسطى للمتحولات

Tim Lawson, Laurence Aitchison
تعلم تخطي الطبقات الوسطى للمتحولات
الملخص

الحساب الشرطي هو استراتيجية شائعة لجعل نماذج Transformers أكثر كفاءة. تركز الأساليب الحالية غالبًا على وحدات فردية (مثل طبقات خليط الخبراء) أو تتجاوز الطبقات بشكل مستقل عن بعضها البعض. ومع ذلك، أظهرت أبحاث التفسيرية أن الطبقات الوسطى من Transformers تتميز بوجود أكبر قدر من التكرار، وأن الطبقات المبكرة تقوم بتجميع المعلومات في مواقع الرموز. استرشادًا بهذه الأفكار، نقترح هندسة جديدة تتخطى عددًا متغيرًا من الطبقات من الوسط نحو الخارج بشكل ديناميكي. وبشكل خاص، يحدد آلية التحكم المستندة إلى التعلم ما إذا كان يجب تجاوز فترة متماثلة من الكتل المركزية بناءً على الإدخال، ويمنع آلية الانتباه المتحكم بها تواجد الرموز اللاحقة في مواقع الرموز التي تم تخطيها. يتم التحكم في المعايير الباقية بمخطط "ساندويتش" أو "PeriLayerNorm"، ويتم تنظيم ندرة الأبواب بخسارة تنظيمية متكيفة. كان هدفنا تقليص متطلبات الحساب للرموز "الأبسط" وتعزيز وجود هرم تمثيلي متعدد المستويات بالطوارئ، ولكن على نطاقات البحث التي أجريناها، لم يحقق نهجنا تحسينات في العلاقة بين متوسط الخطأ العرضي للتحقق والعمليات العائمة المتوقعة مقارنة بنماذج الأساس الكثيفة ذات الطبقات الأقل. نوفر رمزنا البرمجي في https://github.com/tim-lawson/skip-middle.

تعلم تخطي الطبقات الوسطى للمتحولات | أحدث الأوراق البحثية | HyperAI