التصنيف الزمني النادر للشبكة لتحديد مواقع الأنشطة تحت الإشراف الضعيف

نقترح خوارزمية توطين زمني ضعيف الإشراف للأفعال البشرية في مقاطع الفيديو غير المقصوصة باستخدام الشبكات العصبية التلافيفية. تقوم خوارزميتنا بتعلم الفئات على مستوى الفيديو وتتنبأ بالفترات الزمنية للأفعال البشرية دون الحاجة إلى ملاحظات توطين زمني. صممنا شبكتنا لاكتشاف مجموعة نادرة من المقاطع الرئيسية المرتبطة بالأفعال المستهدفة في الفيديو باستخدام وحدة الانتباه (attention module) ودمج هذه المقاطع الرئيسية من خلال التجميع الزمني المتكيف (adaptive temporal pooling). تتكون دالة الخسارة لدينا من حدين يقللان خطأ تصنيف الأفعال على مستوى الفيديو ويفرضان ندرة اختيار المقاطع. في وقت الاستدلال، نستخرج ونقيم اقتراحات زمنية باستخدام تنشيطات الفئات الزمنية والانتباه غير المرتبط بالفئات لتقدير الفترات الزمنية التي تتوافق مع الأفعال المستهدفة. تحصل الخوارزمية المقترحة على أفضل النتائج في مجموعة بيانات THUMOS14 وأداء متميز في مجموعة بيانات ActivityNet1.3 حتى مع إشرافها الضعيف.