HyperAI

YOLOE: شاهد كل شيء في الوقت الحقيقي

1. مقدمة البرنامج التعليمي

YOLOE هو نموذج مرئي جديد في الوقت الحقيقي اقترحه فريق بحثي من جامعة تسينغهوا في عام 2025، ويهدف إلى تحقيق هدف "رؤية كل شيء في الوقت الحقيقي". إنه يرث خصائص الوقت الحقيقي والفعالة لسلسلة نماذج YOLO، وعلى هذا الأساس يدمج بشكل عميق التعلم من الصفر وقدرات المطالبة المتعددة الوسائط، ويمكنه دعم اكتشاف الهدف وتقسيمه في سيناريوهات متعددة مثل النص والرؤية والمطالبة الصامتة. نتائج الورقة ذات الصلة هيYOLOE: رؤية أي شيء في الوقت الفعلي".

الميزات الأساسية

  1. أي نوع من النص مثال على مطالبة نصية
  2. المطالبات متعددة الوسائط:
    • الإشارات البصرية (المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية) أمثلة على الإشارات البصرية
  3. الكشف الصامت التلقائي بالكامل - التعرف تلقائيًا على كائنات المشهد مثال صامت

بيئة العرض التوضيحي: سلسلة YOLOv8e/YOLOv11e + RTX4090

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. عرض دالة YOLOE

1. اكتشاف مطالبة النص

  • أي نوع من النص
  • كلمات موجهة مخصصة:يسمح للمستخدم بإدخال نص عشوائي (قد تختلف نتائج التعرف حسب التعقيد الدلالي)
مثال على موجه النص 1
مثال على النص الموجه 2

2. الإشارات البصرية متعددة الوسائط

  • 🟦 كشف اختيار الصندوق (صناديق البريد)
    bboxes: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام bboxes لتحديد شخص واحد. أثناء الاستدلال، سوف يقوم النموذج بتحديد جميع الأشخاص في الصورة استنادًا إلى محتوى المربعات.
    يمكن رسم مربعات متعددة للحصول على إشارات بصرية أكثر دقة.
  • ✏️ منطقة النقر/الرسم (أقنعة)
    الأقنعة: على سبيل المثال، إذا قمت بتحميل صورة تحتوي على العديد من الأشخاص وتريد اكتشاف الأشخاص في الصورة، فيمكنك استخدام الأقنعة لتغطية شخص واحد. أثناء الاستدلال، سيتعرف النموذج على جميع الأشخاص في الصورة استنادًا إلى محتوى الأقنعة.
    يمكنك رسم أقنعة متعددة للحصول على إشارات بصرية أكثر دقة.
  • 🖼️ مقارنة الصور المرجعية (داخلي/متقاطع)
    Intra: تشغيل صناديق bboxes أو الأقنعة على الصورة الحالية وإجراء الاستدلال على الصورة الحالية.
    تقاطع: تشغيل مربعات bboxes أو الأقنعة على الصورة الحالية والاستدلال على الصور الأخرى.

المفاهيم الأساسية

نموذجالوصف الوظيفيسيناريو التطبيق
داخل الصورةنمذجة علاقات الكائنات داخل رسم بياني واحدتحديد موقع الهدف المحلي بدقة
صورة متقاطعةمطابقة ميزات الصور المتقاطعةاسترجاع كائنات مماثلة
مثال على اكتشاف اختيار الصندوق
مثال موجه مرسوم يدويًا
مثال لمقارنة الصور المرجعية

3. الكشف التلقائي الكامل دون مطالبة

  • 🔍  تحليل المشهد الذكي:تحديد جميع الكائنات البارزة في الصورة تلقائيًا
  • 🚀  بدء التشغيل بدون تكوين:يعمل بدون أي إدخال فوري
الكشف التلقائي الكامل 1
الكشف التلقائي الكامل 2

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓