التاريخ

منذ عام واحد

الوسوم

تقسيم الصور

RTX 5090

رابط الورقة البحثية

2503.07465

الترخيص

Apache 2.0

GitHub

THU-MIG/yoloe2.2k

1. مقدمة البرنامج التعليمي

يُعدّ YOLOE نموذجًا جديدًا للرؤية الآنية، اقترحه فريق بحثي في جامعة تسينغهوا عام 2025، بهدف تحقيق رؤية شاملة في الوقت الفعلي. يرث هذا النموذج خصائص الكفاءة والسرعة في الوقت الفعلي لنماذج سلسلة YOLO، ويُدمج بعمق تقنيات التعلّم بدون بيانات تدريبية وقدرات التوجيه متعدد الوسائط، مما يُتيح اكتشاف الأجسام وتقسيمها في سيناريوهات متنوعة، تشمل النصوص والرؤية والسيناريوهات غير المُوجّهة. تتوفر أوراق بحثية ذات صلة. YOLOE: رؤية أي شيء في الوقت الفعلي .

منذ إطلاقه في عام 2015، أصبح تطبيق YOLO (You Only Look Once) رائدًا في مجال اكتشاف الكائنات وتجزئة الصور.فيما يلي تطور سلسلة YOLO والبرامج التعليمية ذات الصلة:

YOLOv2 (2016):مقدمة حول تطبيع الدفعات، وصناديق المرساة، وتجميع الأبعاد.
YOLOv3 (2018):استخدام شبكات العمود الفقري الأكثر كفاءة، والمراسي المتعددة، وتجميع الهرم المكاني.
YOLOv4 (2020):تقديم تعزيز بيانات Mosaic ورأس الكشف الخالي من المرساة ووظيفة الخسارة الجديدة. → البرنامج التعليمي:يحقق DeepSOCIAL مراقبة مسافة الحشود استنادًا إلى YOLOv4 وتتبع الأهداف المتعددة
YOLOv5 (2020):تمت إضافة تحسين المعلمات الفائقة وتتبع التجربة ووظائف التصدير التلقائي. → البرنامج التعليمي:نموذج تتبع الأهداف المتعددة في الوقت الفعلي YOLOv5_deepsort
YOLOv6 (2022):Meituan مفتوح المصدر، يستخدم على نطاق واسع في روبوتات التوصيل المستقلة.
YOLOv7 (2022): يدعم تقدير الوضع لمجموعة بيانات النقاط الرئيسية COCO. → البرنامج التعليمي:كيفية تدريب واستخدام نموذج YOLOv7 المخصص
YOLOv8 (2023)تم إصدار Ultralytics، الذي يدعم مجموعة كاملة من مهام الذكاء الاصطناعي المرئي. → البرنامج التعليمي:تدريب YOLOv8 باستخدام البيانات المخصصة
YOLOv9 (2024):مقدمة عن معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
YOLOv10 (2024):تم إطلاقه بواسطة جامعة تسينغهوا، وهو يقدم رأسًا من البداية إلى النهاية ويزيل متطلب القمع غير الأقصى (NMS). → البرنامج التعليمي:YOLOv10 الكشف عن الكائنات من البداية إلى النهاية في الوقت الفعلي
YOLOv11(2024):أحدث طراز من Ultralytics، يدعم الكشف والتجزئة وتقدير الوضع والتتبع والتصنيف. → البرنامج التعليمي:نشر YOLOv11 بنقرة واحدة
YOLOv12 🚀 جديد (2025):قمم السرعة والدقة المزدوجة، جنبًا إلى جنب مع مزايا الأداء لآلية الانتباه!

الميزات الأساسية

أي نوع من النص

2. المطالبات متعددة الوسائط:

الإشارات البصرية (المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية)

الكشف الصامت التلقائي بالكامل - التعرف تلقائيًا على كائنات المشهد

بيئة العرض التوضيحي: سلسلة YOLOv8e/YOLOv11e + RTX4090

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. عرض دالة YOLOE

1. اكتشاف مطالبة النص

أي نوع من النص
كلمات موجهة مخصصة:يسمح للمستخدم بإدخال نص عشوائي (قد تختلف نتائج التعرف حسب التعقيد الدلالي)

2. الإشارات البصرية متعددة الوسائط

🟦 كشف اختيار الصندوق (صناديق البريد)
bboxes: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام bboxes لتحديد شخص واحد. أثناء الاستدلال، سوف يقوم النموذج بتحديد جميع الأشخاص في الصورة استنادًا إلى محتوى المربعات.
يمكن رسم مربعات متعددة للحصول على إشارات بصرية أكثر دقة.
✏️ منطقة النقر/الرسم (أقنعة)
الأقنعة: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام الأقنعة لتغطية شخص واحد. أثناء الاستدلال، سيتعرف النموذج على جميع الأشخاص في الصورة استنادًا إلى محتوى الأقنعة.
يمكنك رسم أقنعة متعددة للحصول على إشارات بصرية أكثر دقة.
🖼️ مقارنة الصور المرجعية (داخلي/متقاطع)
Intra: تشغيل صناديق bboxes أو الأقنعة على الصورة الحالية وإجراء الاستدلال على الصورة الحالية.
تقاطع: تشغيل مربعات bboxes أو الأقنعة على الصورة الحالية والاستدلال على الصور الأخرى.

المفاهيم الأساسية

نموذج	الوصف الوظيفي	سيناريو التطبيق
داخل الصورة	نمذجة علاقات الكائنات داخل رسم بياني واحد	تحديد موقع الهدف المحلي بدقة
صورة متقاطعة	مطابقة ميزات الصور المتقاطعة	استرجاع كائنات مماثلة

3. الكشف التلقائي الكامل دون مطالبة

🔍 تحليل المشهد الذكي:تحديد جميع الكائنات البارزة في الصورة تلقائيًا
🚀 بدء التشغيل بدون تكوين:يعمل بدون أي إدخال فوري

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الرؤية الحاسوبية أدلة الأطر الشائعة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord