منذ 9 أيام

إحداث انهيار العصبون في التعلم غير المتوازن: هل نحن حقًا بحاجة إلى تصنيف قابل للتعلم في نهاية الشبكة العصبية العميقة؟

Yibo Yang, Shixiang Chen, Xiangtai Li, Liang Xie, Zhouchen Lin, Dacheng Tao

الملخص

الشبكات العصبية العميقة الحديثة للتصنيف تتعلم عادةً بشكل مشترك هيكلًا أساسيًا (backbone) لتمثيل البيانات، وتصنيفًا خطيًا لإخراج القيم اللوغاريتمية (logits) لكل فئة. أظهرت دراسة حديثة ظاهرة تُعرف بـ "انهيار الشبكة العصبية" (neural collapse)، حيث تتجه المتوسطات داخل الفئة من الميزات، ومقاسات المصنف (classifier vectors) إلى الرؤوس لشكل هندسي يُسمى "إطار متساوي الزوايا مثالي (ETF)" في المرحلة النهائية من التدريب على مجموعة بيانات متوازنة. وبما أن البنية الهندسية لـ ETF تُقصي بشكل أقصى الزوايا المزدوجة بين جميع الفئات في المصنف، يُطرح سؤال طبيعي: لماذا نبذل جهدًا في تعلم مصنف إذا كنا نعرف هيكله الأمثل هندسيًا؟ في هذه الورقة، ندرس إمكانية تدريب شبكة عصبية للتصنيف مع تهيئة مصنف عشوائيًا كـ ETF وثباته خلال التدريب. تشير الدراسات التحليلية القائمة على نموذج "الطبقة المُنفَكَّة" (layer-peeled model) إلى أن تعلم الميزات مع مصنف ETF ثابت يؤدي بشكل طبيعي إلى حالة "انهيار الشبكة العصبية"، حتى في حالة توازن غير متساوٍ بين الفئات في البيانات. كما نُظهر أن في هذه الحالة، لا يكون من الضروري استخدام دالة الخسارة التقاطعية (CE loss)، ويمكن استبدالها بدالة خسارة مربعة بسيطة (squared loss) التي تمتلك نفس القيمة المثلى العالمية، لكنها تتمتع بخصائص تقارب أفضل. تُظهر النتائج التجريبية أن طريقةنا قادرة على تحقيق تحسينات كبيرة مع تقارب أسرع على عدة مجموعات بيانات غير متوازنة.