منذ 2 أشهر
ليست جميع الطبقات متساوية في الأهمية: كل طبقة تُعد مهمة في BERT
Lucas Georges Gabriel Charpentier; David Samuel

الملخص
يقدم هذا البحث تعديلاً جديداً على هيكلية الترانسفورمر (transformer architecture)، مصمماً خصيصاً لتدريب النماذج اللغوية بكفاءة البيانات. تم تقييم هذا الجانب من خلال المشاركة في تحدي BabyLM، حيث فازت حلولنا في المسارين الصارم والصارم-الصغير. يسمح نهجنا لكل طبقة من طبقات الترانسفورمر باختيار مخرجات الطبقات السابقة التي يجب معالجتها. تؤكد النتائج التجريبية إمكانات هذا التعديل البسيط وتظهر أن ليس جميع الطبقات بنفس الدرجة من الأهمية.