YOLOE: شاهد كل شيء في الوقت الحقيقي

1. مقدمة البرنامج التعليمي
YOLOE هو نموذج مرئي جديد في الوقت الحقيقي اقترحه فريق بحثي من جامعة تسينغهوا في عام 2025، ويهدف إلى تحقيق هدف "رؤية كل شيء في الوقت الحقيقي". إنه يرث خصائص الوقت الحقيقي والفعالة لسلسلة نماذج YOLO، وعلى هذا الأساس يدمج بشكل عميق التعلم من الصفر وقدرات المطالبة المتعددة الوسائط، ويمكنه دعم اكتشاف الهدف وتقسيمه في سيناريوهات متعددة مثل النص والرؤية والمطالبة الصامتة. نتائج الورقة ذات الصلة هيYOLOE: رؤية أي شيء في الوقت الفعلي".
الميزات الأساسية
- أي نوع من النص
- المطالبات متعددة الوسائط:
- الإشارات البصرية (المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية)
- الإشارات البصرية (المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية)
- الكشف الصامت التلقائي بالكامل - التعرف تلقائيًا على كائنات المشهد
بيئة العرض التوضيحي: سلسلة YOLOv8e/YOLOv11e + RTX4090
2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. عرض دالة YOLOE
1. اكتشاف مطالبة النص
- أي نوع من النص
- كلمات موجهة مخصصة:يسمح للمستخدم بإدخال نص عشوائي (قد تختلف نتائج التعرف حسب التعقيد الدلالي)


2. الإشارات البصرية متعددة الوسائط
- 🟦 كشف اختيار الصندوق (صناديق البريد)
bboxes: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام bboxes لتحديد شخص واحد. أثناء الاستدلال، سوف يقوم النموذج بتحديد جميع الأشخاص في الصورة استنادًا إلى محتوى المربعات.
يمكن رسم مربعات متعددة للحصول على إشارات بصرية أكثر دقة. - ✏️ منطقة النقر/الرسم (أقنعة)
الأقنعة: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام الأقنعة لتغطية شخص واحد. أثناء الاستدلال، سيتعرف النموذج على جميع الأشخاص في الصورة استنادًا إلى محتوى الأقنعة.
يمكنك رسم أقنعة متعددة للحصول على إشارات بصرية أكثر دقة. - 🖼️ مقارنة الصور المرجعية (داخلي/متقاطع)
Intra: تشغيل صناديق bboxes أو الأقنعة على الصورة الحالية وإجراء الاستدلال على الصورة الحالية.
تقاطع: تشغيل مربعات bboxes أو الأقنعة على الصورة الحالية والاستدلال على الصور الأخرى.
المفاهيم الأساسية
نموذج | الوصف الوظيفي | سيناريو التطبيق |
---|---|---|
داخل الصورة | نمذجة علاقات الكائنات داخل رسم بياني واحد | تحديد موقع الهدف المحلي بدقة |
صورة متقاطعة | مطابقة ميزات الصور المتقاطعة | استرجاع كائنات مماثلة |



3. الكشف التلقائي الكامل دون مطالبة
- 🔍 تحليل المشهد الذكي:تحديد جميع الكائنات البارزة في الصورة تلقائيًا
- 🚀 بدء التشغيل بدون تكوين:يعمل بدون أي إدخال فوري


التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
