التعليق على الفيديو المباشر

الشرح الكثيف للفيديو يشمل اكتشاف ووصف الأحداث داخل تسلسلات الفيديو. الطرق التقليدية تعمل في بيئة غير متصلة، حيث يُفترض توفر الفيديو بأكمله للتحليل. على النقيض من ذلك، نقدم في هذا العمل نموذجًا ثوريًا: شرح الفيديو المباشر (LVC)، حيث يجب إنشاء التسميات التوضيحية لتسلسلات الفيديو بطريقة متصلة. هذا التحول يجلب تحديات فريدة، بما في ذلك معالجة ملاحظات جزئية للأحداث والضرورة المتوقعة زمنيًا للأفعال. نحدد رسميًا المشكلة الجديدة لـ LVC ونقترح مقاييس تقييم مبتكرة تم تصميمها خصيصًا لهذا السيناريو المتصل، مما يظهر مزاياها على المقاييس التقليدية. لمعالجة التعقيدات الجديدة لـ LVC، نقدم نموذجًا جديدًا يجمع بين المتحولات القابلة للتكيّف مع التصفية الزمنية، مما يمكن من الشروح الكفؤة لتسلسلات الفيديو. تجارب واسعة النطاق على مجموعة بيانات ActivityNet Captions تؤكد صحة النهج المقترح، وتظهر أداءه المتفوق في بيئة LVC مقارنة بالطرق المتصلة الأكثر تقدمًا. لتشجيع البحث المستقبلي، نوفر نتائج نموذجنا وأداة تقييم تحتوي على المقاييس الجديدة المدمجة في: https://github.com/gramuah/lvc.