تجميع تكيفي فعّال لتصنيف الصور

في الفترة الأخيرة، باستثناء حالات نادرة، يتجه اتجاه الرؤية الحاسوبية نحو تحقيق تحسينات طفيفة مقارنة بزيادة كبيرة في التعقيد. ولعكس هذا الاتجاه، نقترح طريقة جديدة لتعزيز أداء تصنيف الصور دون زيادة التعقيد. ولتحقيق ذلك، قمنا بإعادة النظر في تقنية التجميع (ensembling)، وهي أسلوب قوي غالبًا ما لا يُستخدم بشكل مناسب بسبب طبيعته المعقدة ووقت التدريب الطويل، بحيث نجعله عمليًا من خلال اختيار تصميم محدد. أولاً، قمنا بتدريب نموذجين EfficientNet-b0 على مجموعتين منفصلتين من البيانات (أي باستخدام طريقة الباجينغ - bagging)، مع العلم أن هذا المعمارية تُعرف بأنها الأفضل من حيث التوازن بين الدقة والتعقيد في تصنيف الصور. ثم قمنا بإنشاء تجميع متكيف وفعال من خلال تدريب طبقة تجميع قابلة للتعديل (fine-tuning لطبقة تجميع قابلة للتعديل). وبهذا، تمكنّا من تجاوز الحد الأقصى الحالي للأداء بمتوسط 0.5% في الدقة، مع الحفاظ على تعقيد منخفض جدًا من حيث عدد المعاملات (بمقدار 5 إلى 60 مرة)، وكذلك بحدّ من العمليات الحسابية النقطية العائمة لكل ثانية (FLOPS) بنسبة 10 إلى 100 مرة، على عدة مجموعات معيارية رئيسية.