TARN: شبكة العلاقات الانتباهية الزمنية لتمييز الأفعال بقليل من الأمثلة وبلا أمثلة

في هذا البحث، نقترح شبكة علاقات انتباهية زمنية جديدة (TARN) لحل مشكلتي التعرف على الأفعال بقليل من العينات والتعرف على الأفعال دون عينات. في صميم شبكتنا يكمن نهج التعلم الميتا (meta-learning) الذي يتعلم كيفية مقارنة تمثيلات ذات طول زمني متغير، أي إما مقاطع فيديو ذات أطوال مختلفة (في حالة التعرف على الأفعال بقليل من العينات) أو مقطع فيديو وتمثيل معنوي مثل متجه الكلمات (في حالة التعرف على الأفعال دون عينات). بالمقارنة مع الأعمال الأخرى في مجال التعرف على الأفعال بقليل من العينات والتعرف على الأفعال دون عينات، نحن a) نستخدم آليات الانتباه للقيام بالمحاذاة الزمنية، وb) نتعلم قياس المسافة العميق بين التمثيلات المحاذة على مستوى مقاطع الفيديو. نعتمد مخطط تدريب قائمة على الحلقات (episode-based training scheme) وندرب شبكتنا بطريقة شاملة من النهاية إلى النهاية. الطريقة المقترحة لا تتطلب أي ضبط دقيق في المجال المستهدف أو الحفاظ على تمثيلات إضافية كما هو الحال في شبكات الذاكرة. تظهر النتائج التجريبية أن الهندسة المقترحة تتفوق على أفضل ما وصل إليه العلم في مجال التعرف على الأفعال بقليل من العينات، وتحقق نتائج تنافسية في مجال التعرف على الأفعال دون عينات.