HyperAIHyperAI
منذ 2 أشهر

YOLOv10: الكشف عن الأشياء في الوقت الفعلي من البداية إلى النهاية

Wang, Ao ; Chen, Hui ; Liu, Lihao ; Chen, Kai ; Lin, Zijia ; Han, Jungong ; Ding, Guiguang
YOLOv10: الكشف عن الأشياء في الوقت الفعلي من البداية إلى النهاية
الملخص

خلال السنوات الماضية، ظهرت نماذج YOLO كأبرز منهجية في مجال الكشف الفوري عن الأشياء بفضل توازنها الفعال بين التكلفة الحسابية وأداء الكشف. قام الباحثون باستكشاف تصاميم البنية المعمارية، وأهداف الأمثلة، واستراتيجيات زيادة البيانات وغيرها لـ YOLOs، مما أدى إلى تحقيق تقدم ملحوظ. ومع ذلك، فإن الاعتماد على تقنية القمع غير القصوى (Non-Maximum Suppression - NMS) للمعالجة ما بعد الإدراك يعرقل نشر YOLOs بشكل كامل ويؤثر سلبًا على زمن الاستدلال. بالإضافة إلى ذلك، فإن تصميم المكونات المختلفة في YOLOs يفتقر إلى الفحص الشامل والدقيق، مما يؤدي إلى وجود فائض حسابي ملحوظ ويشكل قيودًا على قدرة النموذج. هذا يجعل الكفاءة دون المثلى مع إمكانات كبيرة لتحسين الأداء. في هذا العمل، نهدف إلى تطوير حدود الأداء والكفاءة لـ YOLOs من خلال المعالجة ما بعد الإدراك وتصميم النموذج المعماري. لتحقيق هذا الهدف، نقدم أولًا التخصيصات الثنائية المتسقة للتدريب الخالي من NMS لـ YOLOs، والتي توفر أداءً تنافسيًا وزمن استدلال منخفض في آن واحد. علاوة على ذلك، نقدم استراتيجية شاملة لتصميم النموذج مدفوعة بالكفاءة والدقة لـ YOLOs. نقوم بتحسين مختلف مكونات YOLOs بشكل شامل من وجهتي النظر الكفاءة والدقة، مما يقلل بشكل كبير من العبء الحسابي ويعزز القدرة. نتيجة جهودنا هي جيل جديد من سلسلة YOLO للكشف الفوري عن الأشياء بشكل كامل ومنتهي، والذي أطلق عليه اسم YOLOv10. تظهر التجارب الواسعة أن YOLOv10 يحقق أفضل الأداء والكفاءة عبر مختلف مقاييس النماذج. على سبيل المثال، يكون نموذجنا YOLOv10-S أسرع بنسبة 1.8 مرة من RT-DETR-R18 تحت AP مشابهة على COCO، بينما يتمتع بعدد أقل من العناصر والمعلمات بنسبة 2.8 مرة وأقل عدد من العمليات العددية (FLOPs). مقارنة بـ YOLOv9-C، يكون YOLOv10-B أقل زمن استدلال بنسبة 46٪ وأقل عددًا من المعلمات بنسبة 25٪ للأداء نفسه.

YOLOv10: الكشف عن الأشياء في الوقت الفعلي من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI