يولو في 13: الكشف عن الكائنات في الزمن الحقيقي مع تحسين الرؤية البصرية التكيفية باستخدام الرسم البياني الفائق
Mengqi Lei Siqi Li Yihong Wu Han Hu You Zhou Xinhu Zheng Guiguang Ding Shaoyi Du Zongze Wu Yue Gao

الملخص
تُعد نماذج سلسلة YOLO هي الأبرز في كشف الكائنات في الزمن الحقيقي بفضل دقتها العالية وكفاءتها الحسابية. ومع ذلك، فإن الهياكل التلافيفية في نماذج YOLO11 وأقدمها، وكذلك آلية الانتباه الذاتي القائمة على المجال المقدمة في YOLOv12، محدودتان بجمع المعلومات المحلية ونمذجة الارتباطات الزوجية، ولا تمتلكان القدرة على التقاط الارتباطات عالية الرتبة متعددة-إلى-متعددة على المستوى العالمي، مما يحد من أداء الكشف في السيناريوهات المعقدة. في هذا البحث، نقترح YOLOv13، وهو كاشف كائنات دقيق وخفيف الوزن. ولحل التحديات المذكورة أعلاه، نُقدِّم آلية تحسين الارتباط التكيفية القائمة على الرسم البياني الفائق (HyperACE)، التي تُستَخدَم بشكل تكيفي لاستغلال الارتباطات عالية الرتبة المُخزَّنة، وتحاول التغلب على القيود التي تُعاني منها الطرق السابقة، التي كانت محدودة بنمذجة الارتباطات الزوجية بناءً على حسابات الرسم البياني الفائق، وتحقق بذلك دمجًا وتعزيزًا فعّالين للميزات عبر المواقع المختلفة والمقاييس المختلفة على المستوى العالمي. وبعدها، نُقدِّم نموذجًا متكاملًا لجمع وتوزيع الميزات (FullPAD) مبنيًا على HyperACE، والذي يُحقِّق بشكل فعّال تدفق المعلومات بدقة عالية والتناغم في التمثيل عبر الشبكة بأكملها من خلال توزيع الميزات المُحسَّنة بالارتباط على كامل الممر. وأخيرًا، نقترح استخدام التلافيف المُفصَّلة حسب العمق (depthwise separable convolutions) بدلًا من التلافيف التقليدية ذات النوافذ الكبيرة، ونصمم سلسلة من الكتل التي تقلل بشكل كبير من عدد المعاملات والتعقيد الحسابي دون التضحية بالأداء. أجرينا تجارب واسعة على معيار MS COCO الشهير، وأظهرت النتائج التجريبية أن طريقةنا تحقق أداءً متفوّقًا على الحد الأقصى مع عدد أقل من المعاملات وعدد أقل من العمليات الحسابية (FLOPs). وبشكل خاص، يُحسِّن YOLOv13-N مقياس mAP بنسبة 3.0% مقارنة بـ YOLO11-N، وبنسبة 1.5% مقارنة بـ YOLOv12-N.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.