توسيع الرؤية باستخدام خليط الخبراء النادر

أظهرت شبكات خليط الخبراء المُتفرّقة (MoEs) قدرة ممتازة على التوسع في معالجة اللغة الطبيعية. ومع ذلك، في مجال الرؤية الحاسوبية، لا تزال معظم الشبكات ذات الأداء العالي "كثيفة"، أي أن كل إدخال يتم معالجته بواسطة كل معلمة. نقدم هنا نموذجًا للرؤية يُعرف بـ V-MoE، وهو نسخة مُتفرّقة من نموذج المُحول البصري (Vision Transformer)، يتميز بالقدرة على التوسع ويتنافس مع أكبر الشبكات الكثيفة. عند تطبيقه على تصنيف الصور، يُحقق V-MoE أداءً مُنافسًا للنماذج الرائدة، مع الحاجة إلى ما لا يزيد عن نصف الحوسبة المطلوبة أثناء الاستدلال. علاوةً على ذلك، نقترح تطويرًا خوارزمية التوجيه يمكنه تفضيل مجموعات جزئية من كل إدخال عبر كامل الحزمة (batch)، مما يؤدي إلى حساب متغير حسب الصورة (adaptive per-image compute). هذا يمكّن V-MoE من التفاوض بسلاسة بين الأداء والحوسبة أثناء الاختبار. وأخيرًا، نُظهر الإمكانات الكبيرة لـ V-MoE في توسيع نماذج الرؤية، ونُدرّب نموذجًا بحجم 15 مليار معلمة يحقق 90.35% على مجموعة بيانات ImageNet.