HyperAIHyperAI

Command Palette

Search for a command to run...

تمثيلات وسطى تكيفية لفهم الفيديو

Juhana Kangaspunta AJ Piergiovanni Rico Jonschkowski Michael Ryoo Anelia Angelova

الملخص

استراتيجية شائعة في فهم الفيديو هي دمج المعلومات المكانية والحركة من خلال دمج الميزات المستمدة من الإطارات RGB والتدفق البصري. في هذا العمل، نقدم طريقة جديدة لاستخدام التجزئة الدلالية كتمثيل وسيط لفهم الفيديو، ونستخدمها بطريقة لا تتطلب تسمية إضافية.ثانيًا، نقترح إطارًا عامًا يتعلم التمثيلات الوسيطة (التدفق البصري والتجمّع الدلالي) بشكل مشترك مع المهمة النهائية لفهم الفيديو، ويسمح بتعديل هذه التمثيلات بما يتناسب مع الهدف النهائي. وعلى الرغم من استخدام التمثيلات الوسيطة داخل الشبكة، فإن عملية الاستنتاج لا تتطلب بيانات إضافية سوى التسلسلات RGB، مما يمكّن من التعرف بكفاءة باستخدام شبكة واحدة فقط.أخيرًا، نقدّم طريقة لتحديد التكوين الأمثل للتعلم من خلال البحث عن أفضل توازن للخسارة باستخدام التطور. ونتيجة لذلك، نحصل على تمثيلات بصرية أكثر قوة للفيديو، مما يؤدي إلى تحسين الأداء مقارنةً بأفضل النماذج الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp