نحو التعلم شبه المشرف من النهاية إلى النهاية لتمييز الأنشطة في الفيديوهات الطويلة

تطوير نماذج التعرف على الأنشطة من البداية إلى النهاية في مقاطع الفيديو الطويلة هو أمر أساسي وحيوي لفهم الأنشطة في هذه المقاطع. بسبب تكلفة التدريب الشاملة والغير مقبولة على مقاطع الفيديو الطويلة بالكامل، تعمل الدراسات الحالية عادةً على تدريب النماذج على مقاطع قصيرة تم تقليمها من مقاطع الفيديو الطويلة. ومع ذلك، تتطلب هذه الممارسة "تقليم ثم تدريب" وجود تعليقات عن فترات الأنشطة للإشراف على مستوى المقطع، أي معرفة أي الأنشطة تم تقليمها إلى المقاطع. للأسف، جمع مثل هذه التعليقات يكون باهظ الثمن ويمنع التدريب بحجم كبير. بهدف حل هذه المشكلة، يهدف هذا العمل إلى بناء إطار إشراف ضعيف من البداية إلى النهاية لتدريب نماذج التعرف على الأنشطة في مقاطع الفيديو الطويلة باستخدام فقط تصنيفات الأنشطة على مستوى الفيديو. دون معرفة المواقع الزمنية الدقيقة لأنشطة الفيديو الطويل، يقوم الإطار الإشرافي الضعيف المقترح، المعروف باسم AdaptFocus (تكيف التركيز)، بتقدير مكان وكيفية حدوث الأنشطة ليركز بشكل متكيف على المقاطع المعلوماتية للأعمال لتدريب شامل من البداية إلى النهاية. أثبتت فاعلية الإطار المقترح AdaptFocus (تكيف التركيز) في ثلاثة مجموعات بيانات للفيديوهات الطويلة. بالإضافة إلى ذلك، بالنسبة للمهام المتقدمة المتعلقة بالفيديوهات الطويلة، يقدم إطارنا AdaptFocus (تكيف التركيز) خط أنابيب استخراج خصائص بإشراف ضعيف لاستخراج خصائص أكثر صلابة للفيديوهات الطويلة، مما يؤدي إلى تقدم كبير في أفضل الأساليب الحالية لهذه المهام. سنقوم بإطلاق الكود والنماذج.