تصنيف الفيديو بقليل من الإطارات عبر التحديد الزمني

هناك اهتمام متزايد بتعلم نموذج يمكنه التعرف على فئات جديدة باستخدام عدد قليل من الأمثلة المصنفة. في هذا البحث، نقترح وحدة التوافق الزمني (Temporal Alignment Module - TAM)، وهي إطار جديد للتعلم القليل الإشراف الذي يمكنه تعلم تصنيف فيديو لم يُرَ سابقًا. بينما تتجاهل معظم الدراسات السابقة المعلومات الزمنية طويلة الأجل، فإن النموذج المقترح لدينا يستغل بشكل صريح المعلومات الزمنية في بيانات الفيديو من خلال التوافق الزمني. هذا يؤدي إلى كفاءة بيانات قوية في التعلم القليل الإشراف. بالتحديد، تقوم وحدة التوافق الزمني (TAM) بحساب قيمة المسافة للفيديو الاستفساري بالنسبة للأمثلة الوسيطة للفئات الجديدة عن طريق متوسط المسافات لكل إطار على طول مسار التوافق. نقدم استرخاءً مستمرًا لـ TAM بحيث يمكن تعلم النموذج بطريقة شاملة من النهاية إلى النهاية لتحسين الهدف المباشر للتعلم القليل الإشراف. نقيم أداء وحدة التوافق الزمني (TAM) على مجموعتين من البيانات العالم الحقيقي الصعبتين، وهما Kinetics وSomething-Something-V2، ونظهر أن نموذجنا يؤدي إلى تحسين كبير في تصنيف الفيديو القليل الإشراف مقارنة بمجموعة كبيرة من الأساليب المنافسة الأساسية.