Meta-DMoE: التكيّف مع الانزلاق النطاقي من خلال التقطير المتعدد من خلايا الخبرة المختلطة

في هذه الورقة، نعالج مشكلة الانزياح النطاقي (domain shift). تُطبّق معظم الطرق الحالية التدريب على نطاقات مصدر متعددة باستخدام نموذج واحد، ويُستخدم نفس النموذج المدرب على جميع النطاقات الهدف غير المرئية. تُعدّ هذه الحلول غير مثلى، لأن كل نطاق هدف يمتلك خصائص فريدة لا يتم تكييفها. علاوةً على ذلك، من غير المنطقي أن نتوقع من تدريب نموذج واحد أن يتعلم معرفة واسعة من عدة نطاقات مصدرية. فهذا النموذج يكون أكثر تحيّزًا لتعلم السمات الثابتة بالنسبة للنطاقات (domain-invariant features)، وقد يؤدي إلى نقل معرفي سلبي. في هذا العمل، نقترح إطارًا جديدًا للتكيف غير المراقب في وقت الاختبار (unsupervised test-time adaptation)، والذي يُصاغ كعملية نقل المعرفة (knowledge distillation) للتعامل مع الانزياح النطاقي. بشكل محدد، نُدمج نماذج "مزيج الخبراء" (Mixture-of-Experts، MoE) كمعلّمين، حيث يُدرّس كل خبير بشكل منفصل على نطاق مصدر مختلف بهدف تعظيم خصوصيته. عند وجود نطاق هدف في وقت الاختبار، نقوم بأخذ عينة صغيرة من بيانات غير مُعلّمة لاستقصاء المعرفة من MoE. وبما أن النطاقات المصدرية مرتبطة بالنطاقات الهدف، يُستخدم ثمّاً مُعتمد على الترانسفورمر (transformer-based aggregator) لدمج المعرفة النطاقية من خلال تحليل الترابطات بينها. ويُعتبر الإخراج الناتج إشارة إشراف لتكييف شبكة التنبؤ الطالبة (student prediction network) نحو النطاق الهدف. كما نستخدم التعلّم التلّي (meta-learning) لضمان أن يُنقل المعرفة الإيجابية من خلال المُجمّع، وأن تتمّ عملية التكييف السريع للشبكة الطالبة. تُظهر التجارب الواسعة أن الطريقة المقترحة تتفوّق على أحدث الطرق المطروحة، وتُثبت فعالية كل مكوّن مُقترح. يمكن الوصول إلى الشفرة المصدرية الخاصة بنا عبر الرابط: https://github.com/n3il666/Meta-DMoE.