دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

منذ إصداره لأول مرة في عام 2015، أصبح YOLO (You Only Look Once) أحد أكثر نماذج اكتشاف الكائنات في الوقت الفعلي تأثيرًا في مجال الرؤية الحاسوبية. تم تحديث تقنية الكشف عن الأهداف الشاملة هذه، والتي تعتمد على بنية الكشف المكونة من مرحلة واحدة، بأكثر من عشرة إصدارات خلال السنوات العشر الماضية. بفضل معالجتها في الوقت الفعلي للصور عالية الدقة ومعدل الإطارات العالي، يتم استخدامها على نطاق واسع في مجالات متعددة مثل القيادة الذاتية، وتحليل الصور الطبية، ورؤية الروبوت.
ومع ذلك، على الرغم من أن نماذج سلسلة YOLO التقليدية تستخدم الشبكات العصبية التلافيفية لتحقيق الكشف عالي الأداء في الوقت الفعلي،ومع ذلك، فإنها تعتمد على فئات مستهدفة محددة مسبقًا وتفتقر إلى المرونة في السيناريوهات المفتوحة العملية.
ولمعالجة هذه المشكلة، قام فريق جامعة تسينغهوا، استنادًا إلى YOLO،تم اقتراح نموذج الكشف عن الكائنات المفتوحة وتجزئةها YOLOE، والذي يدعم ثلاثة أنواع من السيناريوهات: المطالبات النصية، والإشارات المرئية، والخالية من المطالبات.وتتيح هذه القدرة المتعددة الوسائط للروبوت فهم أوامر اللغة، ورؤية الصور، وحتى اكتشاف أشياء جديدة بشكل مستقل، مما يحقق بالفعل "رؤية كل شيء في الوقت الحقيقي".
حاليًا، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI برنامجًا تعليميًا للنشر بنقرة واحدة "YOLOE: شاهد كل شيء في الوقت الفعلي". الأصدقاء المهتمين، تعالوا وجربوها!
رابط البرنامج التعليمي:
تشغيل تجريبي
1. قم بتسجيل الدخول إلى hyper.ai، في صفحة البرامج التعليمية، حدد YOLOE: See Everything in Real Time، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.


2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصور "NVIDIA RTX 4090" و"PyTorch". أطلقت منصة OpenBayes طريقة فوترة جديدة. يمكنك اختيار "الدفع حسب الاستخدام" أو "الباقة اليومية/الأسبوعية/الشهرية" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://go.openbayes.com/9S6Dr


4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.


عرض التأثير
الأول هو اكتشاف مطالبة النص،يدعم YOLOE اكتشاف تلميح النص وتقسيمه لأي فئة نصية. النص المدخل في الشكل أدناه هو "النمر، الحافلة، الشخص". وتظهر نتيجة الكشف في الشكل الموجود على اليمين، والذي يحدد بوضوح النمر والحافلة السياحية والسياح في الصورة. ومن الممكن ملاحظة أنه حتى السياح الذين تكون رؤوسهم مسدودة أو في أماكن مظلمة يمكن التعرف عليهم بوضوح.

والثانية هي الإشارات البصرية.بعد تحديد هدف الكشف عن طريق المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية، يمكن التعرف على كائنات الكشف المماثلة بدقة، كما هو موضح في الشكل التالي:

وأخيرًا، هناك اكتشاف صامت تلقائي بالكامل.يمكنه التعرف تلقائيًا على كائنات المشهد، كما هو موضح في الشكل التالي:

ما ورد أعلاه هو البرنامج التعليمي الموصى به من قبل HyperAI هذه المرة. تعال وجربها بنفسك!
رابط البرنامج التعليمي: