النماذج النادرة من خبراء المزيج هي كائنات تعلم قادرة على التعميم عبر المجالات

يمكن للإدراك البصري البشري التعميم بسهولة على بيانات بصرية خارج التوزيع، وهو ما يتجاوز قدرة النماذج الحديثة للتعلم الآلي. يهدف التعميم النطقي (DG) إلى سد هذه الفجوة، مع تركيز الطرق الحالية للـDG بشكل رئيسي على تصميم دالة الخسارة. في هذه الورقة، نقترح استكشاف اتجاه متعامد، أي تصميم هيكل الشبكة الأساسية (backbone architecture). ويُحفَّز هذا الاقتراح على أساس ملاحظة تجريبية تُظهر أن النماذج القائمة على المُحَوِّل (Transformer) التي تم تدريبها باستخدام مبدأ تقليل المخاطر التجريبية (ERM) تتفوّق على النماذج القائمة على الشبكات العصبية التلافيفية (CNN) التي تستخدم خوارزميات التعميم النطقي الأفضل (SOTA) على عدة مجموعات بيانات للـDG. ونُطوّر إطارًا رياضيًا رسميًا لوصف مقاومة الشبكة لانزياحات التوزيع من خلال دراسة مدى توافق هيكلها مع الارتباطات الموجودة في مجموعة البيانات. ويُرشدنا هذا التحليل إلى اقتراح نموذج جديد للـDG مبني على المُحَوِّلات البصرية، يُسمّى "المزيج القابل للتعميم من الخبراء" (Generalizable Mixture-of-Experts، GMoE). وقد أظهرت تجارب واسعة على مجموعة بيانات DomainBed أن GMoE، عند تدريبه باستخدام ERM، يتفوّق بشكل كبير على أفضل النماذج الحالية للـDG. علاوةً على ذلك، يُظهر GMoE تكاملًا مع الطرق الحالية للـDG، وتحسّن أداءه بشكل ملحوظ عند تدريبه باستخدام خوارزميات التعميم النطقي.