تمثيلات وسطى تكيفية لفهم الفيديو

استراتيجية شائعة في فهم الفيديو هي دمج المعلومات المكانية والحركة من خلال دمج الميزات المستمدة من الإطارات RGB والتدفق البصري. في هذا العمل، نقدم طريقة جديدة لاستخدام التجزئة الدلالية كتمثيل وسيط لفهم الفيديو، ونستخدمها بطريقة لا تتطلب تسمية إضافية.ثانيًا، نقترح إطارًا عامًا يتعلم التمثيلات الوسيطة (التدفق البصري والتجمّع الدلالي) بشكل مشترك مع المهمة النهائية لفهم الفيديو، ويسمح بتعديل هذه التمثيلات بما يتناسب مع الهدف النهائي. وعلى الرغم من استخدام التمثيلات الوسيطة داخل الشبكة، فإن عملية الاستنتاج لا تتطلب بيانات إضافية سوى التسلسلات RGB، مما يمكّن من التعرف بكفاءة باستخدام شبكة واحدة فقط.أخيرًا، نقدّم طريقة لتحديد التكوين الأمثل للتعلم من خلال البحث عن أفضل توازن للخسارة باستخدام التطور. ونتيجة لذلك، نحصل على تمثيلات بصرية أكثر قوة للفيديو، مما يؤدي إلى تحسين الأداء مقارنةً بأفضل النماذج الحالية.