HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات متعددة الزوايا للتمييز عن الفيديو

Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid

الملخص

يتطلب فهم الفيديو استنتاجًا على مقاييس زمنية ومكانية متعددة — من الحركات الدقيقة القصيرة إلى الأحداث التي تحدث على مدى فترات زمنية أطول. وعلى الرغم من التقدم الذي حققته هياكل المُحَوِّل (transformer) حديثًا في تحسين أداء النماذج، إلا أنها لم تُنمذج بشكل صريح مقاييس زمنية ومكانية مختلفة. وللإجابة على هذا التحدي، نقدّم نموذج "مُحَوِّلات متعددة الأطراف لتمييز الفيديو" (Multiview Transformers for Video Recognition - MTV). يتكون نموذجنا من مُشَفرات منفصلة تمثل أطرًا مختلفة للفيديو المُدخل، مع روابط جانبية لدمج المعلومات بين هذه الأطر. نقدم دراسات تحليلية مفصلة لنماذجنا، ونُظهر أن MTV يتفوق باستمرار على النماذج ذات المنظور الواحد من حيث الدقة وتكلفة الحوسبة عبر مجموعة متنوعة من أحجام النماذج. علاوةً على ذلك، حققنا نتائج متقدمة على ستة مجموعات بيانات قياسية، مع تحسين إضافي عند استخدام التدريب المسبق على نطاق واسع. يمكن الوصول إلى الكود والنقاط المحفوظة عبر الرابط التالي: https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp