YOLOv6: إطار كشف الكائنات ذي مرحلة واحدة للتطبيقات الصناعية

على مدى سنوات، كان سلسلة YOLO القياسية الفعلية في الصناعة للكشف الفعّال عن الكائنات. وقد ازدهر مجتمع YOLO بشكل كبير، ما ساهم في تنويع استخدامه عبر منصات هاردوير متنوعة وسياقات واسعة. في هذا التقرير التقني، نسعى إلى دفع حدودها إلى المستوى التالي، بروحٍ ثابتة تُسهم في تطبيقات الصناعة. مع الأخذ في الاعتبار المتطلبات المتنوعة من حيث السرعة والدقة في البيئات الحقيقية، قمنا بدراسة معمقة للتقدم الأخير في مجال الكشف عن الكائنات، سواء من منظور الصناعة أو الأوساط الأكاديمية. وبشكل خاص، استوَّلنا بعمق على أفكار حديثة في تصميم الشبكات، واستراتيجيات التدريب، وتقنيات الاختبار، والكمّية (Quantization)، وطرق التحسين. وبهذا الأساس، قمنا بدمج أفكارنا وتجاربنا لبناء مجموعة من الشبكات الجاهزة للنشر بمقاييس مختلفة، لتلبية حالات استخدام متنوعة. وبإذن واسع من مؤسسي YOLO، أطلقنا على هذا الإصدار اسم YOLOv6. ونرحب بحرارة بجميع المستخدمين والمساهمين لتعزيزه بشكل مستمر. للمقارنة من حيث الأداء، حقق YOLOv6-N مؤشر دقة 35.9% AP على مجموعة بيانات COCO، وبمعدل إنتاجية (Throughput) يبلغ 1234 إطارًا في الثانية (FPS) على وحدة معالجة رسومات NVIDIA Tesla T4. أما YOLOv6-S، فقد حقق 43.5% AP بسرعة 495 FPS، متفوقًا على أبرز الكاشفات الرئيسية الأخرى بنفس الحجم (مثل YOLOv5-S و YOLOX-S و PPYOLOE-S). كما أن النسخة المُكمّلة (Quantized) من YOLOv6-S حققت أداءً جديدًا لحالة الذروة (SOTA) بـ 43.3% AP وبمعدل 869 FPS. علاوة على ذلك، حقق YOLOv6-M/L أداءً دقيقًا أفضل (49.5% / 52.3%) مقارنة بالكاشفات الأخرى ذات السرعة المماثلة للاستنتاج. وقد أجرينا تجارب دقيقة لتأكيد فعالية كل عنصر في النظام. كما تم إتاحة الكود الخاص بنا عبر الرابط التالي: https://github.com/meituan/YOLOv6.