TSP: التدريب المسبق الحساس للزمن لمشفرات الفيديو للمهام التموضعية

بسبب الحجم الكبير لذاكرة الفيديوهات غير المقطوعة، تعمل طرق التوطين الفيديوي الحديثة على ميزات مقاطع الفيديو التي تم حسابها مسبقًا. يتم استخراج هذه الميزات من مشفرات الفيديو التي تم تدريبها عادةً للمهام المتعلقة بتصنيف الأنشطة المقطوعة، مما يجعل مثل هذه الميزات ليست بالضرورة مناسبة للتوطين الزمني. في هذا العمل، نقترح نموذجًا جديدًا للتدريب الإشرافي المسبق لميزات المقاطع يتدرب ليس فقط على تصنيف الأنشطة ولكن أيضًا على النظر في مقاطع الخلفية والمعلومات الشاملة للفيديو لتحسين الحساسية الزمنية. تظهر التجارب الواسعة أن استخدام ميزات تم تدريبها باستخدام استراتيجيتنا الجديدة للتدريب المسبق يحسن بشكل كبير أداء الطرق الحديثة الأكثر تقدمًا في ثلاث مهام: توطين الأنشطة الزمني (Temporal Action Localization)، إنشاء اقتراحات للأفعال (Action Proposal Generation)، وكتابة تعليقات كثيفة للفيديو (Dense Video Captioning). نوضح أيضًا أن نهجنا للتدريب المسبق فعال عبر ثلاثة هياكل لمشفرات والمتانة مع قاعدتين بيانات للتدريب المسبق. نعتقد أن ترميز ميزات الفيديو هو عنصر مهم في بناء خوارزميات التوطين، وأن استخراج ميزات زمنية حساسة يجب أن يكون من أهم الأولويات في بناء نماذج أكثر دقة. الكود والنماذج المدربة مسبقًا متاح على موقع مشروعنا.请注意,这里有一些科技/学术术语的处理:- "视频编码器" 翻译为 "مشفر الفيديو" (video encoder)- "活动分类任务" 翻译为 "مهام تصنيف الأنشطة" (action classification tasks)- "时间敏感度" 翻译为 "الحساسية الزمنية" (temporal sensitivity)- "时间动作定位" 翻译为 "توطين الأنشطة الزمني" (Temporal Action Localization)- "动作提议生成" 翻译为 "إنشاء اقتراحات للأفعال" (Action Proposal Generation)- "密集视频描述" 翻译为 "كتابة تعليقات كثيفة للفيديو" (Dense Video Captioning)