HyperAIHyperAI
منذ 11 أيام

تحسين مشفر الفيديو منخفض الجودة لتحديد الإجراءات الزمنية

{Brais Martinez, Bernard Ghanem, Xiatian Zhu, Juan Manuel Perez Rua, Mengmeng Xu}
تحسين مشفر الفيديو منخفض الجودة لتحديد الإجراءات الزمنية
الملخص

تعتمد معظم الطرق الحالية لتحديد الأفعال الزمنية (TAL) على نموذج تعليم نقل: حيث يتم أولاً تحسين مشغل الفيديو على مجموعة بيانات كبيرة لتصنيف الأفعال (أي المجال المصدر)، ثم تجميد هذا المشغل وتدريب رأس TAL على مجموعة بيانات تحديد المواقع الزمنية للأفعال (أي المجال الهدف). يؤدي هذا إلى مشكلة عدم التوافق بين المهام بالنسبة لمشغل الفيديو – فهو مدرب على تصنيف الأفعال، لكنه يُستخدم في TAL. من الناحية المبدئية، يُعد التحسين المشترك لكل من مشغل الفيديو ورأس TAL حلاً قوياً لحل هذه المشكلة. ومع ذلك، لا يمكن تنفيذه عملياً في TAL نظراً لقيود ذاكرة GPU، بسبب التكلفة الحسابية الباهظة الناتجة عن معالجة مقاطع الفيديو الطويلة غير المُقطعة. في هذا البحث، نعالج هذه التحديات من خلال تقديم طريقة جديدة لتحسين مشغل الفيديو منخفض الجودة (LoFi). بدلًا من استخدام التكوينات الكاملة للتدريب في TAL دومًا، نقترح تقليل تركيبة الحزمة الصغيرة من حيث الدقة الزمنية أو الفضائية أو الفضائية-الزمنية، بحيث يصبح التحسين المشترك بين مشغل الفيديو ورأس TAL ممكنًا ضمن نفس شروط الذاكرة المتوفرة ضمن ميزانية هاردوير متوسطة. ويشكل هذا عاملًا حاسمًا، حيث يسمح بتدفق التدرجات عكسياً عبر مشغل الفيديو بشروط خسارة مراقبة TAL، مما يُعالج بشكل مُرضٍ مشكلة عدم التوافق بين المهام ويوفر تمثيلات مميزة أكثر فعالية. تُظهر التجارب الواسعة أن نهج التحسين LoFi المقترح يمكنه تحسين الأداء بشكل كبير لطرق TAL الحالية. وبشكل مُحفّز، حتى باستخدام مشغل فيديو خفيف الوزن مبني على ResNet18 في قناة RGB واحدة، يتفوّق أسلوبنا على الحلول ذات القناتين (RGB + التدفق البصري) المبنية على ResNet50، غالبًا بفارق ملحوظ.

تحسين مشفر الفيديو منخفض الجودة لتحديد الإجراءات الزمنية | أحدث الأوراق البحثية | HyperAI