دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

منذ عام واحد

منذ إصداره لأول مرة في عام 2015، أصبح YOLO (You Only Look Once) أحد أكثر نماذج اكتشاف الكائنات في الوقت الفعلي تأثيرًا في مجال الرؤية الحاسوبية. تم تحديث تقنية الكشف عن الأهداف الشاملة هذه، والتي تعتمد على بنية الكشف المكونة من مرحلة واحدة، بأكثر من عشرة إصدارات خلال السنوات العشر الماضية. بفضل معالجتها في الوقت الفعلي للصور عالية الدقة ومعدل الإطارات العالي، يتم استخدامها على نطاق واسع في مجالات متعددة مثل القيادة الذاتية، وتحليل الصور الطبية، ورؤية الروبوت.

ومع ذلك، على الرغم من أن نماذج سلسلة YOLO التقليدية تستخدم الشبكات العصبية التلافيفية لتحقيق الكشف عالي الأداء في الوقت الفعلي،ومع ذلك، فإنها تعتمد على فئات مستهدفة محددة مسبقًا وتفتقر إلى المرونة في السيناريوهات المفتوحة العملية.

ولمعالجة هذه المشكلة، قام فريق جامعة تسينغهوا، استنادًا إلى YOLO،تم اقتراح نموذج الكشف عن الكائنات المفتوحة وتجزئةها YOLOE، والذي يدعم ثلاثة أنواع من السيناريوهات: المطالبات النصية، والإشارات المرئية، والخالية من المطالبات.وتتيح هذه القدرة المتعددة الوسائط للروبوت فهم أوامر اللغة، ورؤية الصور، وحتى اكتشاف أشياء جديدة بشكل مستقل، مما يحقق بالفعل "رؤية كل شيء في الوقت الحقيقي".

حاليًا، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI برنامجًا تعليميًا للنشر بنقرة واحدة "YOLOE: شاهد كل شيء في الوقت الفعلي". الأصدقاء المهتمين، تعالوا وجربوها!

رابط البرنامج التعليمي:

https://go.hyper.ai/U2PXt

انقر هنا لعرض سلسلة دروس YOLO الكاملة: دروس تعليمية عبر الإنترنت | تم تحديث سلسلة YOLO بـ 11 إصدارًا في 10 سنوات، ووصل الطراز الأحدث إلى SOTA في مهام الكشف عن الأهداف المتعددة

تشغيل تجريبي

1. قم بتسجيل الدخول إلى hyper.ai، في صفحة البرامج التعليمية، حدد YOLOE: See Everything in Real Time، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصور "NVIDIA RTX 4090" و"PyTorch". أطلقت منصة OpenBayes طريقة فوترة جديدة. يمكنك اختيار "الدفع حسب الاستخدام" أو "الباقة اليومية/الأسبوعية/الشهرية" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://go.openbayes.com/9S6Dr

4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

الأول هو اكتشاف مطالبة النص،يدعم YOLOE اكتشاف تلميح النص وتقسيمه لأي فئة نصية. النص المدخل في الشكل أدناه هو "النمر، الحافلة، الشخص". وتظهر نتيجة الكشف في الشكل الموجود على اليمين، والذي يحدد بوضوح النمر والحافلة السياحية والسياح في الصورة. ومن الممكن ملاحظة أنه حتى السياح الذين تكون رؤوسهم مسدودة أو في أماكن مظلمة يمكن التعرف عليهم بوضوح.

والثانية هي الإشارات البصرية.بعد تحديد هدف الكشف عن طريق المربعات/النقاط/الأشكال المرسومة يدويًا/الصور المرجعية، يمكن التعرف على كائنات الكشف المماثلة بدقة، كما هو موضح في الشكل التالي:

وأخيرًا، هناك اكتشاف صامت تلقائي بالكامل.يمكنه التعرف تلقائيًا على كائنات المشهد، كما هو موضح في الشكل التالي:

ما ورد أعلاه هو البرنامج التعليمي الموصى به من قبل HyperAI هذه المرة. تعال وجربها بنفسك!

رابط البرنامج التعليمي:

https://go.hyper.ai/U2PXt

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

HyperAI

دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

منذ عام واحد

رابط البرنامج التعليمي:

https://go.hyper.ai/U2PXt

تشغيل تجريبي

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://go.openbayes.com/9S6Dr

عرض التأثير

ما ورد أعلاه هو البرنامج التعليمي الموصى به من قبل HyperAI هذه المرة. تعال وجربها بنفسك!

رابط البرنامج التعليمي:

https://go.hyper.ai/U2PXt

ذات صلة الأخبار

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

برنامج تعليمي عبر الإنترنت | فريق جامعة هونغ كونغ يفتح برنامج DeepTutor، وهو مساعد تعليمي شخصي يُمكّن من التعلم التفاعلي الذي يغطي الفهم والاستدلال والتوليد من خلال التعاون بين عدة وكلاء

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

Command Palette

دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

تشغيل تجريبي

عرض التأثير

Command Palette

دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

دروس تعليمية عبر الإنترنت丨ابتكارات مهمة في سلسلة YOLO! أصدر فريق تسينغهوا برنامج YOLOE، الذي يمكنه اكتشاف الكائنات وتقسيمها في المشاهد المفتوحة في الوقت الفعلي

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة