HyperAIHyperAI

Command Palette

Search for a command to run...

MeMViT: نموذج تحويل البصريات متعدد المقياس المدعوم بالذاكرة للتمييز الفعّال للفيديوهات طويلة الأمد

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

الملخص

بينما تستطيع أنظمة التعرف على الفيديو الحالية تحليل الصور الثابتة أو المقاطع القصيرة بدقة، إلا أنها ما زالت غير قادرة على ربط الأحداث وتحقيق الاستدلال عبر فترة زمنية أطول. معظم الهياكل الحالية لمعالجة الفيديو قادرة على معالجة أقل من 5 ثوانٍ من الفيديو دون التعرض لمشكلات في الحوسبة أو الذاكرة.في هذه الورقة، نقترح استراتيجية جديدة للتغلب على هذا التحدي. بدلًا من محاولة معالجة عدد أكبر من الإطارات دفعة واحدة كما تفعل معظم الطرق الحالية، نقترح معالجة الفيديو بطريقة مباشرة (online) وتخزين "ذاكرة" في كل تكرار. من خلال هذه الذاكرة، يمكن للنموذج الإشارة إلى السياق السابق لتمكين النمذجة على المدى الطويل، وبتكلفة زائدة ضئيلة جدًا. استنادًا إلى هذه الفكرة، قمنا ببناء MeMViT، وهو نموذج يعتمد على التحويلة البصرية متعددة المقاييس مع دعم ذاكرة، والذي يمتلك دعمًا زمنيًا أطول بـ 30 مرة مقارنةً بالنماذج الحالية، مع زيادة بسيطة جدًا في الحوسبة بنسبة 4.5% فقط؛ في حين أن الطرق التقليدية تحتاج إلى زيادة تزيد عن 3000% في الحوسبة لتحقيق نفس النتيجة. على مجموعة واسعة من المعايير، أدى الزيادة في الدعم الزمني التي يوفرها MeMViT إلى تحسينات كبيرة ومستمرة في دقة التعرف. وحقق MeMViT نتائج رائدة على مجموعات بيانات AVA وEPIC-Kitchens-100 لتصنيف الحركات، وتنبؤ الحركات. يُمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/facebookresearch/memvit.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp