مولد متعدد الدقة للاقتراحات الزمنية للأفعال

توليد اقتراحات العمل الزمنية هو مهمة مهمة تهدف إلى تحديد المقاطع الفيديو التي تحتوي على أفعال بشرية في فيديو غير مقصوص. في هذا البحث، نقترح استخدام مولد متعدد الدقة (MGG) لأداء اقتراحات العمل الزمنية من وجهات نظر مختلفة بالدقة، معتمداً على الخصائص البصرية للفيديو المزودة بمعلومات التضمين المكاني. أولاً، نقترح استخدام نموذج تطابق ثنائي الخطي لاستغلال المعلومات المحلية الغنية داخل سلسلة الفيديو. بعد ذلك، يتم دمج مكونين، وهما منتج مقترحات القطع (SPP) ومنتج فاعلية الإطار (FAP)، لأداء مهمة اقتراح العمل الزمني بدقة مختلفة. يأخذ SPP الفيديو كله على شكل هرم الخصائص ويتولى إنتاج مقترحات القطع من وجهة نظر خشنة واحدة، بينما يقوم FAP بتقييم أدق لفاعلية كل إطار في الفيديو. يمكن تدريب MGG المقترح لدينا بطريقة شاملة من البداية إلى النهاية. عن طريق ضبط مقترحات القطع زمنياً باستخدام معلومات فاعلية الإطار الدقيقة، يحقق MGG أداءً أفضل من الأساليب الرائدة على قاعدة بيانات THUMOS-14 و ActivityNet-1.3 العامة. بالإضافة إلى ذلك، نستخدم تصنيفات العمل الموجودة لأداء تصنيف المقترحات المنتجة بواسطة MGG، مما يؤدي إلى تحسينات كبيرة مقارنة بالأساليب المنافسة في مهمة الكشف عن الفيديو.