LeYOLO، معمارية مدمجة جديدة للكشف عن الكائنات

الحساب الفعّال في الشبكات العصبية العميقة يُعد أمرًا حاسمًا للكشف الفوري عن الأجسام. ومع ذلك، فإن التطورات الحديثة نتجت بشكل رئيسي عن تحسين الأجهزة عالية الأداء، بدلًا من تحسين كفاءة عدد المعاملات (parameters) وعدد العمليات الحسابية (FLOP). وهذا أمر واضح بشكل خاص في أحدث هياكل YOLO، حيث يُعطى الأولوية للسرعة على التصميم الخفيف. ونتيجة لذلك، حظيت نماذج الكشف عن الأجسام المُحسّنة للبيئات ذات الموارد المحدودة، مثل وحدات التحكم الصغيرة (microcontrollers)، باهتمام أقل. بالنسبة للأجهزة ذات القدرة الحاسوبية المحدودة، تعتمد الحلول الحالية بشكل رئيسي على SSDLite أو مزيج من فئات تصنيف ذات عدد قليل من المعاملات، مما يُخلق فجوة ملحوظة بين الهياكل المماثلة لـ YOLO والنماذج الحقيقية الخفيفة والفعّالة. وهذا يثير سؤالًا جوهريًا: هل يمكن لنموذج مُحسّن للكفاءة في عدد المعاملات وعدد العمليات الحسابية أن يصل إلى مستويات دقة تُعادل نماذج YOLO الرئيسية؟ لمعالجة هذا السؤال، نقدّم مساهمتين رئيسيتين في مجال الكشف عن الأجسام، باستخدام مجموعة بيانات MSCOCO كمجموعة تحقق أساسية. أولاً، نُقدّم LeNeck، وهي إطار عام للكشف عن الأجسام يحافظ على سرعة الاستدلال المماثلة لـ SSDLite، مع تحسين ملحوظ في الدقة وتقليل عدد المعاملات. ثانيًا، نقدّم LeYOLO، وهو نموذج كشف عن أجسام فعّال صُمّم لتعزيز الكفاءة الحسابية في الهياكل المستندة إلى YOLO. ويُعد LeYOLO فعّالًا في سد الفجوة بين كاشفات SSDLite والنماذج المبنية على YOLO، مع تقديم دقة عالية في نموذج صغير حجمًا مثل MobileNets. وتمتاز كلتا المساهمتين بشكل خاص بالملاءمة للأجهزة المحمولة، والمضمنة، والأجهزة ذات الطاقة المنخفضة جدًا، بما في ذلك وحدات التحكم الصغيرة، حيث تُعد الكفاءة الحسابية أمرًا بالغ الأهمية.