التحديد الزمني للإجراءات الضعيف المراقب من خلال نمذجة عدم اليقين

تهدف التصنيف الزمني للإجراءات الضعيف المُشَجَّع إلى تعلُّم الكشف عن الفترات الزمنية لفئات الإجراءات باستخدام علامات فقط على مستوى الفيديو. ولتحقيق ذلك، يُعدُّ من الضروري فصل الإطارات الخاصة بفئات الإجراءات عن الإطارات الخلفية (أي الإطارات التي لا تنتمي إلى أي فئة إجراءات). في هذه الورقة، نقدِّم منظورًا جديدًا للإطارات الخلفية، حيث نُمَثِّلها كعينات خارج التوزيع بسبب عدم اتساقها. ومن ثم، يمكن اكتشاف الإطارات الخلفية من خلال تقدير احتمالية كل إطار أن يكون خارج التوزيع، المعروف باسم عدم اليقين، ولكن من المستحيل تعلُّم عدم اليقين مباشرةً دون علامات على مستوى الإطار. لتمكين تعلُّم عدم اليقين في البيئة الضعيفة المُشَجَّعة، نستفيد من صيغة التعلُّم متعدد الأمثلة (Multiple Instance Learning). علاوةً على ذلك، نُقدِّم خسارة إنتروبيا للخلفية لتحسين التمييز بين الإطارات الخلفية من خلال تشجيع احتمالات الإطارات الخلفية على أن تكون موزعة بشكل متساوٍ على جميع فئات الإجراءات (أي احتمالات داخل التوزيع). تُظهر النتائج التجريبية أن نمذجة عدم اليقين لدينا فعّالة في تقليل التداخل الناتج عن الإطارات الخلفية، وتحقيق مكاسب كبيرة في الأداء دون الحاجة إلى إضافات معقدة. ونُظهر أن نموذجنا يتفوّق بشكل كبير على أحدث الأساليب على المعايير الشهيرة THUMOS'14 وActivityNet (1.2 و1.3). يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling.