YOLOE: شاهد كل شيء في الوقت الحقيقي
1. مقدمة البرنامج التعليمي

YOLOE هو نموذج مرئي جديد في الوقت الحقيقي اقترحه فريق بحثي من جامعة تسينغهوا في عام 2025، ويهدف إلى تحقيق هدف "رؤية كل شيء في الوقت الحقيقي". إنه يرث خصائص الوقت الحقيقي والفعالة لسلسلة نماذج YOLO، وعلى هذا الأساس يدمج بشكل عميق التعلم من الصفر وقدرات المطالبة المتعددة الوسائط، ويمكنه دعم اكتشاف الهدف وتقسيمه في سيناريوهات متعددة مثل النص والرؤية والمطالبة الصامتة. نتائج الورقة ذات الصلة هيYOLOE: رؤية أي شيء في الوقت الفعلي".
منذ إطلاقه في عام 2015، أصبح تطبيق YOLO (You Only Look Once) رائدًا في مجال اكتشاف الكائنات وتجزئة الصور.فيما يلي تطور سلسلة YOLO والبرامج التعليمية ذات الصلة:
- YOLOv2 (2016):مقدمة حول تطبيع الدفعات، وصناديق المرساة، وتجميع الأبعاد.
- YOLOv3 (2018):استخدام شبكات العمود الفقري الأكثر كفاءة، والمراسي المتعددة، وتجميع الهرم المكاني.
- YOLOv4 (2020):تقديم تعزيز بيانات Mosaic ورأس الكشف الخالي من المرساة ووظيفة الخسارة الجديدة. → البرنامج التعليمي:يحقق DeepSOCIAL مراقبة مسافة الحشود استنادًا إلى YOLOv4 وتتبع الأهداف المتعددة
- YOLOv5 (2020):تمت إضافة تحسين المعلمات الفائقة وتتبع التجربة ووظائف التصدير التلقائي. → البرنامج التعليمي:نموذج تتبع الأهداف المتعددة في الوقت الفعلي YOLOv5_deepsort
- YOLOv6 (2022):Meituan مفتوح المصدر، يستخدم على نطاق واسع في روبوتات التوصيل المستقلة.
- YOLOv7 (2022): يدعم تقدير الوضع لمجموعة بيانات النقاط الرئيسية COCO. → البرنامج التعليمي:كيفية تدريب واستخدام نموذج YOLOv7 المخصص
- YOLOv8 (2023)تم إصدار Ultralytics، الذي يدعم مجموعة كاملة من مهام الذكاء الاصطناعي المرئي. → البرنامج التعليمي:تدريب YOLOv8 باستخدام البيانات المخصصة
- YOLOv9 (2024):مقدمة عن معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- YOLOv10 (2024):تم إطلاقه بواسطة جامعة تسينغهوا، وهو يقدم رأسًا من البداية إلى النهاية ويزيل متطلب القمع غير الأقصى (NMS). → البرنامج التعليمي:YOLOv10 الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي
- YOLOv11(2024):أحدث طراز من Ultralytics، يدعم الكشف والتجزئة وتقدير الوضع والتتبع والتصنيف. → البرنامج التعليمي:نشر YOLOv11 بنقرة واحدة
- YOLOv12 🚀 جديد (2025):قمم السرعة والدقة المزدوجة، جنبًا إلى جنب مع مزايا الأداء لآلية الانتباه!
الميزات الأساسية
- أي نوع من النص

2. المطالبات متعددة الوسائط:
- الإشارات البصرية (المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية)

- الكشف الصامت التلقائي بالكامل - التعرف تلقائيًا على كائنات المشهد

بيئة العرض التوضيحي: سلسلة YOLOv8e/YOLOv11e + RTX4090
2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. عرض دالة YOLOE
1. اكتشاف مطالبة النص
- أي نوع من النص
- كلمات موجهة مخصصة:يسمح للمستخدم بإدخال نص عشوائي (قد تختلف نتائج التعرف حسب التعقيد الدلالي)


2. الإشارات البصرية متعددة الوسائط
- 🟦 كشف اختيار الصندوق (صناديق البريد)
bboxes: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام bboxes لتحديد شخص واحد. أثناء الاستدلال، سوف يقوم النموذج بتحديد جميع الأشخاص في الصورة استنادًا إلى محتوى المربعات.
يمكن رسم مربعات متعددة للحصول على إشارات بصرية أكثر دقة. - ✏️ منطقة النقر/الرسم (أقنعة)
الأقنعة: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام الأقنعة لتغطية شخص واحد. أثناء الاستدلال، سيتعرف النموذج على جميع الأشخاص في الصورة استنادًا إلى محتوى الأقنعة.
يمكنك رسم أقنعة متعددة للحصول على إشارات بصرية أكثر دقة. - 🖼️ مقارنة الصور المرجعية (داخلي/متقاطع)
Intra: تشغيل صناديق bboxes أو الأقنعة على الصورة الحالية وإجراء الاستدلال على الصورة الحالية.
تقاطع: تشغيل مربعات bboxes أو الأقنعة على الصورة الحالية والاستدلال على الصور الأخرى.
المفاهيم الأساسية
نموذج | الوصف الوظيفي | سيناريو التطبيق |
---|---|---|
داخل الصورة | نمذجة علاقات الكائنات داخل رسم بياني واحد | تحديد موقع الهدف المحلي بدقة |
صورة متقاطعة | مطابقة ميزات الصور المتقاطعة | استرجاع كائنات مماثلة |



3. الكشف التلقائي الكامل دون مطالبة
- 🔍 تحليل المشهد الذكي:تحديد جميع الكائنات البارزة في الصورة تلقائيًا
- 🚀 بدء التشغيل بدون تكوين:يعمل بدون أي إدخال فوري


التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
