التحديد الزمني للإجراءات عبر شبكات تقييم مبنية على التباين بتحفيز ضعيف

الاستشعار الزمني للإجراءات الضعيف التدريب (WS-TAL) هو مهمة واعدة لكنها صعبة، حيث تكون متاحة فقط علامات فئوية إجرائية على مستوى الفيديو أثناء التدريب. وبفضل عدم الحاجة إلى تسميات حدود إجرائية زمنية في بيانات التدريب، يمكن لـ WS-TAL الاستفادة من العلامات التلقائية المسترجعة من الفيديو كعلامات على مستوى الفيديو. ومع ذلك، فإن هذه المراقبة الخشنة على مستوى الفيديو تؤدي حتمًا إلى ارتباك، خصوصًا في مقاطع الفيديو غير المُقطَّعة التي تحتوي على عدة حالات إجرائية. لمعالجة هذه التحديات، نقترح شبكة التقييم التمييزي للتحديد الزمني (CleanNet) مع مُقيّم اقتراحات إجرائية جديد، والذي يوفر مراقبة افتراضية من خلال استغلال التباين الزمني في تنبؤات التصنيف على مستوى القطعة (snippet). وبشكل أساسي، يفرض مُقيّم اقتراحات الإجراء الجديد قيدًا إضافيًا على التباين الزمني، بحيث تصبح الاقتراحات ذات الدرجة العالية في التقييم أكثر احتمالًا لتتطابق مع الحالات الحقيقية للإجراءات. علاوةً على ذلك، يُعدّ وحدة التحديد الإجرائي الجديدة جزءًا لا يتجزأ من CleanNet، مما يمكّن من التدريب بأسلوب نهاية إلى نهاية. ويختلف هذا عن العديد من الطرق الحالية لـ WS-TAL، حيث يُعدّ التحديد الإجرائي مجرد خطوة ما بعد المعالجة. وقد أكدت التجارب على مجموعتي بيانات THUMOS14 وActivityNet فعالية CleanNet مقارنةً بالأساليب الحالية الأفضل في مجال WS-TAL.