HyperAIHyperAI
منذ 17 أيام

تمثيلات وسطى تكيفية لفهم الفيديو

Juhana Kangaspunta, AJ Piergiovanni, Rico Jonschkowski, Michael Ryoo, Anelia Angelova
تمثيلات وسطى تكيفية لفهم الفيديو
الملخص

استراتيجية شائعة في فهم الفيديو هي دمج المعلومات المكانية والحركة من خلال دمج الميزات المستمدة من الإطارات RGB والتدفق البصري. في هذا العمل، نقدم طريقة جديدة لاستخدام التجزئة الدلالية كتمثيل وسيط لفهم الفيديو، ونستخدمها بطريقة لا تتطلب تسمية إضافية.ثانيًا، نقترح إطارًا عامًا يتعلم التمثيلات الوسيطة (التدفق البصري والتجمّع الدلالي) بشكل مشترك مع المهمة النهائية لفهم الفيديو، ويسمح بتعديل هذه التمثيلات بما يتناسب مع الهدف النهائي. وعلى الرغم من استخدام التمثيلات الوسيطة داخل الشبكة، فإن عملية الاستنتاج لا تتطلب بيانات إضافية سوى التسلسلات RGB، مما يمكّن من التعرف بكفاءة باستخدام شبكة واحدة فقط.أخيرًا، نقدّم طريقة لتحديد التكوين الأمثل للتعلم من خلال البحث عن أفضل توازن للخسارة باستخدام التطور. ونتيجة لذلك، نحصل على تمثيلات بصرية أكثر قوة للفيديو، مما يؤدي إلى تحسين الأداء مقارنةً بأفضل النماذج الحالية.

تمثيلات وسطى تكيفية لفهم الفيديو | أحدث الأوراق البحثية | HyperAI