استاذ متوسط مستقر للكشف شبه المشرف عن أفعال الفيديو

في هذا العمل، نركز على التعلم شبه المشرف (Semi-Supervised Learning) للكشف عن الأفعال في الفيديو. يعتمد الكشف عن الأفعال في الفيديو على التموضع الزماني والمكاني بالإضافة إلى التصنيف، وكمية محدودة من العلامات تجعل النموذج عرضة للتنبؤات غير الموثوقة. نقدم إطار عمل بسيط ومتكامل يعتمد على المعلم (Stable Mean Teacher)، يستفيد من العلامات الوهمية المحسنة والثابتة زمنيًا. يعتمد هذا الإطار على وحدة جديدة لإعادة الاسترجاع من الأخطاء (Error Recovery Module - EoR)، والتي تتعلم من أخطاء الطلاب على العينات المعلمة وتنتقل هذه المعرفة إلى المعلم لتحسين العلامات الوهمية للعينات غير المعلمة.بالإضافة إلى ذلك، فإن الخسائر الزمانية والمكانية الحالية لا تأخذ الاتساق الزمني بعين الاعتبار وهي عرضة للعدم الثبات الزمني. لمعالجة هذا الأمر، نقدم قيد البكسلات المختلفة (Difference of Pixels - DoP)، وهو قيد بسيط وجديد يركز على الاتساق الزمني، مما يؤدي إلى اكتشافات زمانية متماسكة. نقيم نهجنا على أربع مقاييس مختلفة للكشف الزماني والمكاني: UCF101-24، JHMDB21، AVA، و YouTube-VOS. يتفوق نهجنا على الخطوط الأساسية المشرفة في الكشف عن الأفعال بمتوسط هامش 23.5% على UCF101-24، 16% على JHMDB21، و 3.3% على AVA. باستخدام فقط 10% و 20% من البيانات، يقدم أداءً تنافسيًا مقارنة بالنموذج المشرف الذي تم تدريبه باستخدام 100% من العلامات على UCF101-24 و JHMDB21، على التوالي. كما نقيم فعاليته بشكل إضافي على AVA للتوسع إلى مجموعات بيانات كبيرة وعلى YouTube-VOS لتقسيم الكائنات في الفيديو، مما يظهر قدرته على التعميم إلى مهام أخرى في مجال الفيديو.الرمز البرمجي والنماذج متاحة بشكل عام.