HyperAIHyperAI

Command Palette

Search for a command to run...

دورة تعليمية عبر الإنترنت | اكتشاف الأجسام يدخل عصر "الوعي العالمي": جامعة تسينغهوا وجهات أخرى تُصدر YOLOv13، مُحققةً إنجازاتٍ في السرعة والدقة

Featured Image

في التطبيقات التي تتطلب استجابة سريعة، مثل القيادة الذاتية، وفحص الجودة الصناعية، ومراقبة الأمن، لا يزال الكشف الفوري عن الأجسام مجالًا تكنولوجيًا بالغ الصعوبة. على مدار العقد الماضي، أصبحت سلسلة YOLO الحل الأمثل في هذا المجال بفضل بنيتها خفيفة الوزن وكفاءتها العالية. بدءًا من جهاز YOLO الأصلي وصولًا إلى جهازي YOLOv11 وYOLOv12 الحديثين، سعى هذا النموذج باستمرار إلى تحقيق توازن جديد بين السرعة والدقة.

ومع ذلك، حتى بعد التطورات المتعددة،لا تزال الآليات الأساسية لسلسلة YOLO تواجه عقبات مشتركة:إما أن يكون قادرًا فقط على إجراء تجميع محلي ضمن مجال استقبال ثابت، مثل الالتفاف، أو أن يوسع مجال الاستقبال مثل الانتباه الذاتي، ولكن نظرًا لارتفاع تكلفته الحسابية، يجب "إضفاء طابع إقليمي" عليه عند النشر الفعلي، مما يفقده منظورًا عالميًا حقيقيًا. والأهم من ذلك،لا يزال الاهتمام الذاتي يعمل بشكل أساسي على نمذجة العلاقة بين أزواج البكسل، ولا يمكنه التعبير إلا عن "الارتباطات الثنائية"، مما يجعل من الصعب التقاط الهياكل الدلالية الأكثر تعقيدًا من العديد إلى العديد في المشهد.تعتبر هذه الهياكل ضرورية للنماذج لفهم المشاهد المزدحمة، أو الأشياء ذات الحبيبات الدقيقة، أو العلاقات البصرية المعقدة للغاية.

*المجال الاستقبالي: في المسار البصري، تستقبل المستقبلات الضوئية (الخلايا العصوية والمخروطية) على الشبكية الإشارات الضوئية، وتحولها إلى إشارات عصبية، وتؤثر على خلايا النواة الركبية الجانبية والخلايا العقدية في القشرة البصرية. تُسمى المناطق المُحفَّزة من هذه الخلايا العقدية بالمجالات الاستقبالية. تختلف خصائص وأحجام المجال الاستقبالي باختلاف أنواع الحواس.

هذا هو السبب في أن بنية YOLO التقليدية غالبًا ما تواجه اختناقات في الأداء عند مواجهة سيناريوهات معقدة: إما أنها لا تستطيع فهم التبعيات طويلة المدى بشكل كامل أو تكافح للتعبير عن العلاقات الدلالية العميقة عبر المقاييس.

ردًا على هذه المشكلة طويلة الأمد،اقترح فريق بحثي مشترك مكون من جامعة تسينغهوا وجامعة تاييوان للتكنولوجيا وجامعة شيان جياوتونغ وجامعات أخرى نموذجًا جديدًا لكشف الكائنات - YOLOv13 - والذي يمتد "نمذجة الارتباط" من النظام الثنائي إلى بنية حقيقية من الدرجة الأعلى.قدم فريق البحث مكونًا أساسيًا - HyperACE (تعزيز الارتباط التكيفي القائم على Hypergraph). تتعامل HyperACE مع وحدات البكسل في خرائط الميزات متعددة المقاييس باعتبارها رؤوسًا وتستكشف بشكل تكيفي الارتباطات ذات الدرجة الأعلى بين الرؤوس من خلال كتل بناء الحواف القابلة للتعلم.بعد ذلك، باستخدام وحدة نقل معلومات ذات تعقيد خطي، موجهة بترابطات عالية المستوى، يتم تجميع الميزات متعددة المقاييس بفعالية لتحقيق إدراك بصري في المشاهد المعقدة. علاوة على ذلك، يدمج HyperACE أيضًا نمذجة ترابط منخفضة المستوى لتحقيق إدراك بصري أكثر شمولاً.

بناءً على HyperACE، اقترح YOLOv13 أيضًا FullPAD (التجميع والتوزيع الكامل للأنابيب):يُجري النموذج أولًا تحسينًا للصلة على نطاق عالمي، ثم يُوزّع الميزات المُحسّنة على مراحل مُختلفة من الهيكل الأساسي، والرقبة، والرأس، مما يسمح بدمج "الدلالات عالية المستوى" خلال عملية الكشف بأكملها، مما يُحسّن تدفق التدرج ويُحسّن الأداء العام. بالإضافة إلى ذلك، استبدل المؤلفون نواة الالتفاف الكبيرة التقليدية بوحدة الالتفاف الأخف وزنًا والقابلة للفصل على مستوى العمق، مما يُقلل من تكاليف المعاملات والحسابات مع الحفاظ على الدقة.

وتظهر النتائج النهائية أنه من النماذج الصغيرة (سلسلة N) إلى النماذج الكبيرة،لقد حقق YOLOv13 تحسينات كبيرة على MS COCO، حيث وصل إلى أداء اكتشاف متطور مع عدد أقل من المعلمات وFLOPs.ومن بينها، قام YOLOv13-N بتحسين mAP بمقدار 3.01 TP3T مقارنة بـ YOLOv11-N، وبمقدار 1.51 TP3T مقارنة بـ YOLOv12-N.

حاليًا، يتوفر شرح "نشر Yolov13 بنقرة واحدة" في قسم "البرامج التعليمية" بموقع HyperAI الإلكتروني. انقر على الرابط أدناه لتجربة شرح النشر بنقرة واحدة ⬇️

رابط البرنامج التعليمي:

https://go.hyper.ai/EHfXY

عرض الأوراق ذات الصلة:

https://go.hyper.ai/Gzu7K

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد "نشر Yolov13 بنقرة واحدة"، أو انتقل إلى صفحة "البرامج التعليمية" وحدد "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صورتي "NVIDIA GeForce RTX 5090" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

٤. انتظر تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. بمجرد تغيير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال السريع بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي.

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، قم بتحميل صورتك/الفيديو الخاص بك وانقر فوق "اكتشاف الكائنات" لتشغيل العرض التوضيحي.

وصف المعلمة:

* النماذج: yolov13n.pt (نانو)، yolov13s.pt (صغير)، yolov13l.pt (كبير)، yolov13x.pt (كبير جدًا). تتميز النماذج الأكبر عادةً بدقة أعلى (mAP)، بالإضافة إلى عدد معاملات أعلى، وتكلفة حسابية أعلى (FLOPs)، ووقت استدلال أطول.

* عتبة الثقة: عتبة الثقة.

* عتبة IoU: عتبة التقاطع عبر الاتحاد (IoU)، المستخدمة في NMS.

* الحد الأقصى للاكتشافات لكل صورة: الحد الأقصى لعدد مربعات الاكتشاف لكل صورة.

استخدم المحرر نموذج "yolov13s.pt" كمثال للاختبار، وتظهر النتائج أدناه.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/EHfXY