منذ 8 أشهر

الملخص

في هذا العمل، نركز على التعلم شبه المشرف (Semi-Supervised Learning) للكشف عن الأفعال في الفيديو. يعتمد الكشف عن الأفعال في الفيديو على التموضع الزماني والمكاني بالإضافة إلى التصنيف، وكمية محدودة من العلامات تجعل النموذج عرضة للتنبؤات غير الموثوقة. نقدم إطار عمل بسيط ومتكامل يعتمد على المعلم (Stable Mean Teacher)، يستفيد من العلامات الوهمية المحسنة والثابتة زمنيًا. يعتمد هذا الإطار على وحدة جديدة لإعادة الاسترجاع من الأخطاء (Error Recovery Module - EoR)، والتي تتعلم من أخطاء الطلاب على العينات المعلمة وتنتقل هذه المعرفة إلى المعلم لتحسين العلامات الوهمية للعينات غير المعلمة.بالإضافة إلى ذلك، فإن الخسائر الزمانية والمكانية الحالية لا تأخذ الاتساق الزمني بعين الاعتبار وهي عرضة للعدم الثبات الزمني. لمعالجة هذا الأمر، نقدم قيد البكسلات المختلفة (Difference of Pixels - DoP)، وهو قيد بسيط وجديد يركز على الاتساق الزمني، مما يؤدي إلى اكتشافات زمانية متماسكة. نقيم نهجنا على أربع مقاييس مختلفة للكشف الزماني والمكاني: UCF101-24، JHMDB21، AVA، و YouTube-VOS. يتفوق نهجنا على الخطوط الأساسية المشرفة في الكشف عن الأفعال بمتوسط هامش 23.5% على UCF101-24، 16% على JHMDB21، و 3.3% على AVA. باستخدام فقط 10% و 20% من البيانات، يقدم أداءً تنافسيًا مقارنة بالنموذج المشرف الذي تم تدريبه باستخدام 100% من العلامات على UCF101-24 و JHMDB21، على التوالي. كما نقيم فعاليته بشكل إضافي على AVA للتوسع إلى مجموعات بيانات كبيرة وعلى YouTube-VOS لتقسيم الكائنات في الفيديو، مما يظهر قدرته على التعميم إلى مهام أخرى في مجال الفيديو.الرمز البرمجي والنماذج متاحة بشكل عام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار