YOLOv9: التعلّم ما ترغب في تعلّمه باستخدام معلوماتgradient قابلة للبرمجة

تركز الطرق الحديثة للتعلم العميق على كيفية تصميم الدوال الهدف الأنسب بحيث تكون نتائج التنبؤ الناتجة عن النموذج أقرب ما يمكن إلى الحقيقة المطلقة. في الوقت نفسه، يجب تصميم بنية مناسبة تُمكّن من اكتساب كمية كافية من المعلومات لتقديم التنبؤات الفعّالة. وتتجاهل الطرق الحالية حقيقةً مفادها أن المعلومات الكبيرة تُفقد أثناء مرور البيانات المدخلة عبر عمليات استخلاص الميزات وتحويل المكانية الطبقية. وستتعمق هذه الورقة في المسائل الهامة المتعلقة بفقدان البيانات عند نقلها عبر الشبكات العميقة، وتحديداً في مفهوم "العقدة المحدودة للمعلومات" (Information Bottleneck) والدوال القابلة للعكس. وقد قمنا بطرح مفهوم "المعلومات المُشَغّلة بالGradient" (Programmable Gradient Information - PGI) للتعامل مع التغيرات المختلفة المطلوبة في الشبكات العميقة لتحقيق أهداف متعددة. وتمكّن PGI من توفير المعلومات الكاملة المدخلة للوظيفة المستهدفة لحساب الدالة الهدف، مما يُتيح الحصول على معلومات موثوقة حول الـGradient لتحديث أوزان الشبكة. بالإضافة إلى ذلك، تم تصميم بنية شبكة خفيفة الوزن جديدة تُسمى "شبكة التجميع المتعممة الفعّالة (Generalized Efficient Layer Aggregation Network - GELAN)"، المستندة إلى تخطيط مسارات الـGradient. وقد أثبتت بنية GELAN أن PGI تحقق نتائج متفوقة على النماذج الخفيفة. وتم التحقق من أداء GELAN وPGI باستخدام مجموعة بيانات MS COCO في مهمة الكشف عن الكائنات. وأظهرت النتائج أن GELAN تستخدم فقط عوامل الترسيم التقليدية (conventional convolution operators) لتحقيق كفاءة أعلى في استخدام المعلمات مقارنةً بالطرق المتطورة التي تعتمد على الترسيم العميق (depth-wise convolution). ويمكن استخدام PGI في مجموعة متنوعة من النماذج، بدءًا من النماذج الخفيفة إلى النماذج الكبيرة، حيث يمكنها استرجاع المعلومات الكاملة، مما يُتيح للنماذج المُدرَّبة من الصفر تحقيق نتائج أفضل من النماذج المتطورة التي تم تدريبها مسبقًا على مجموعات بيانات كبيرة، وتم عرض نتائج المقارنة في الشكل 1. ويمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/WongKinYiu/yolov9.