HyperAIHyperAI
منذ 2 أشهر

نحو التعلم شبه المشرف من النهاية إلى النهاية لتمييز الأنشطة في الفيديوهات الطويلة

Zhou, Jiaming ; Li, Hanjun ; Lin, Kun-Yu ; Liang, Junwei
نحو التعلم شبه المشرف من النهاية إلى النهاية لتمييز الأنشطة في الفيديوهات الطويلة
الملخص

تطوير نماذج التعرف على الأنشطة من البداية إلى النهاية في مقاطع الفيديو الطويلة هو أمر أساسي وحيوي لفهم الأنشطة في هذه المقاطع. بسبب تكلفة التدريب الشاملة والغير مقبولة على مقاطع الفيديو الطويلة بالكامل، تعمل الدراسات الحالية عادةً على تدريب النماذج على مقاطع قصيرة تم تقليمها من مقاطع الفيديو الطويلة. ومع ذلك، تتطلب هذه الممارسة "تقليم ثم تدريب" وجود تعليقات عن فترات الأنشطة للإشراف على مستوى المقطع، أي معرفة أي الأنشطة تم تقليمها إلى المقاطع. للأسف، جمع مثل هذه التعليقات يكون باهظ الثمن ويمنع التدريب بحجم كبير. بهدف حل هذه المشكلة، يهدف هذا العمل إلى بناء إطار إشراف ضعيف من البداية إلى النهاية لتدريب نماذج التعرف على الأنشطة في مقاطع الفيديو الطويلة باستخدام فقط تصنيفات الأنشطة على مستوى الفيديو. دون معرفة المواقع الزمنية الدقيقة لأنشطة الفيديو الطويل، يقوم الإطار الإشرافي الضعيف المقترح، المعروف باسم AdaptFocus (تكيف التركيز)، بتقدير مكان وكيفية حدوث الأنشطة ليركز بشكل متكيف على المقاطع المعلوماتية للأعمال لتدريب شامل من البداية إلى النهاية. أثبتت فاعلية الإطار المقترح AdaptFocus (تكيف التركيز) في ثلاثة مجموعات بيانات للفيديوهات الطويلة. بالإضافة إلى ذلك، بالنسبة للمهام المتقدمة المتعلقة بالفيديوهات الطويلة، يقدم إطارنا AdaptFocus (تكيف التركيز) خط أنابيب استخراج خصائص بإشراف ضعيف لاستخراج خصائص أكثر صلابة للفيديوهات الطويلة، مما يؤدي إلى تقدم كبير في أفضل الأساليب الحالية لهذه المهام. سنقوم بإطلاق الكود والنماذج.

نحو التعلم شبه المشرف من النهاية إلى النهاية لتمييز الأنشطة في الفيديوهات الطويلة | أحدث الأوراق البحثية | HyperAI