YOLOv10 الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي
YOLOv10 هو الجيل الأحدث من نظام الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي والذي طوره باحثون من جامعة تسينغهوا. تم بناؤه على أساس حزمة Ultralytics Python ويهدف إلى معالجة أوجه القصور في إصدارات YOLO السابقة في مرحلة ما بعد المعالجة وهندسة النموذج. من خلال القضاء على القمع غير الأقصى (NMS) وتحسين مكونات النموذج المختلفة، يحقق YOLOv10 أداءً متطورًا مع تقليل النفقات الحسابية بشكل كبير. نشر فريق البحث ورقة بحثية YOLOv10: الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعليتم شرح إطار الدراسة بالتفصيل.
خلفية
في السنوات القليلة الماضية، أصبح YOLO النموذج السائد في مجال اكتشاف الكائنات في الوقت الفعلي بسبب التوازن الفعال بين التكلفة الحسابية وأداء الاكتشاف. قام الباحثون باستكشاف تصميم بنية YOLO وأهداف التحسين واستراتيجيات تحسين البيانات وما إلى ذلك، وحققوا تقدمًا كبيرًا. ومع ذلك، فإن الاعتماد على القمع غير الأقصى (NMS) لمرحلة ما بعد المعالجة يعيق نشر YOLO من البداية إلى النهاية ويؤثر سلبًا على زمن انتقال الاستدلال. بالإضافة إلى ذلك، يفتقر تصميم كل مكون في YOLO إلى مراجعة شاملة ودقيقة، مما يؤدي إلى التكرار الحسابي الواضح ويحد من قدرات النموذج. ويؤدي ذلك إلى كفاءة دون المستوى الأمثل في حين أن هناك إمكانات كبيرة لتحسين الأداء.
مقدمة بحث YOLOv10
في هذا العمل، يهدف فريق البحث إلى دفع حدود كفاءة أداء YOLO بشكل أكبر من جانبين: المعالجة اللاحقة وهندسة النموذج. ولتحقيق هذه الغاية، اقترح فريق البحث أولاً تخصيصًا مزدوجًا متسقًا للتدريب الخالي من YOLO NMS، والذي يوفر أداءً تنافسيًا وزمن استدلال منخفضًا. بالإضافة إلى ذلك، قدم فريق البحث استراتيجية تصميم نموذجية شاملة تعتمد على الكفاءة والدقة لـ YOLO. قام فريق البحث بتحسين كل مكون من مكونات YOLO بشكل شامل من منظور الكفاءة والدقة، مما أدى إلى تقليل النفقات الحسابية بشكل كبير وتحسين الأداء. نتيجة لجهود فريق البحث، تم التوصل إلى الجيل التالي من عائلة YOLO للكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي، والذي يسمى YOLOv10. تظهر التجارب المكثفة أن YOLOv10 يحقق أداء وكفاءة متطورة في أحجام النماذج المختلفة. على سبيل المثال، فإن YOLOv10-S الذي ابتكره فريق البحث أسرع بـ 1.8 مرة من RT-DETR-R18 عند AP مماثل على COCO. بالمقارنة مع YOLOv9-C، يقلل YOLOv10-B زمن الوصول بمقدار 46% والمعلمات بمقدار 25% بنفس الأداء.
تتضمن هندسة YOLOv10 المكونات الرئيسية التالية:
- الشبكة الأساسية:المسؤول عن استخراج الميزات، باستخدام نسخة محسنة من CSPNet (شبكة جزئية عبر المراحل) لتحسين تدفق التدرج وتقليل التكرار الحسابي.
- رقبة:تم تصميمه لتجميع ميزات بمقاييس مختلفة وتحقيق اندماج فعال للميزات متعددة المقاييس من خلال طبقة PAN (شبكة تجميع المسار).
- واحد إلى كثير:إنشاء تنبؤات متعددة لكل كائن أثناء التدريب، مما يوفر إشارات إشراف غنية ويحسن دقة التعلم.
- واحد لواحد:يولد أفضل تنبؤ واحد لكل كائن أثناء الاستدلال دون استخدام نظام إدارة الشبكة، مما يقلل من زمن الوصول ويحسن الكفاءة.
يحتوي YOLOv10 على أحجام نماذج متعددة لتلبية احتياجات التطبيقات المختلفة:
- YOLOv10-N:إصدار Nano، مناسب للبيئات ذات الموارد المحدودة للغاية.
- YOLOv10-S:إصدار صغير، يوازن بين السرعة والدقة.
- YOLOv10-M:نسخة متوسطة، مناسبة للاستخدام العام.
- YOLOv10-B:إصدار متوازن بعرض متزايد لتحقيق دقة أفضل.
- YOLOv10-L:إصدار كبير يعمل على تحسين الدقة على حساب زيادة الموارد الحسابية.
- YOLOv10-X:إصدار كبير جدًا للحصول على أقصى قدر من الدقة والأداء.
تم اختبار YOLOv10 على نطاق واسع على معايير قياسية مثل COCO، مما يدل على الأداء والكفاءة المتفوقة، مع تحسينات كبيرة في كل من زمن الوصول والدقة مقارنة بالإصدارات السابقة وأجهزة الكشف المعاصرة الأخرى.
مراجع
【1】YOLOv10: الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي