HyperAIHyperAI
منذ 2 أشهر

ليست جميع الطبقات متساوية في الأهمية: كل طبقة تُعد مهمة في BERT

Lucas Georges Gabriel Charpentier; David Samuel
ليست جميع الطبقات متساوية في الأهمية: كل طبقة تُعد مهمة في BERT
الملخص

يقدم هذا البحث تعديلاً جديداً على هيكلية الترانسفورمر (transformer architecture)، مصمماً خصيصاً لتدريب النماذج اللغوية بكفاءة البيانات. تم تقييم هذا الجانب من خلال المشاركة في تحدي BabyLM، حيث فازت حلولنا في المسارين الصارم والصارم-الصغير. يسمح نهجنا لكل طبقة من طبقات الترانسفورمر باختيار مخرجات الطبقات السابقة التي يجب معالجتها. تؤكد النتائج التجريبية إمكانات هذا التعديل البسيط وتظهر أن ليس جميع الطبقات بنفس الدرجة من الأهمية.

ليست جميع الطبقات متساوية في الأهمية: كل طبقة تُعد مهمة في BERT | أحدث الأوراق البحثية | HyperAI