HyperAIHyperAI

Command Palette

Search for a command to run...

المزيد هو أقل: تعلّم تمثيلات فيديو فعّالة من خلال الشبكة الكبيرة-الصغيرة والتجانس الزمني بالاتجاهات العميقة

Quanfu Fan Chun-Fu Chen Hilde Kuehne Marco Pistoia David Cox

الملخص

النماذج الحالية المتطورة في مجال التعرف على الإجراءات في الفيديو تعتمد في معظمها على شبكات الت(ConvNets) ثلاثية الأبعاد ذات التكلفة العالية. هذا يؤدي إلى الحاجة إلى مجموعات كبيرة من وحدات معالجة الرسوميات (GPU) لتدريب وتقدير هذه الهياكل. ولحل هذه المشكلة، نقدم بنية خفيفة الوزن وصديقة للذاكرة للتعريف بالإجراءات، تحقق أداءً مماثلاً أو أفضل من الهياكل الحالية باستخدام جزء ضئيل من الموارد. تعتمد البنية المقترحة على دمج فرع عميق يعمل على الإطارات ذات الدقة المنخفضة مع فرع مكثف يعمل على الإطارات ذات الدقة العالية، مما يسمح بتحقيق كفاءة عالية ودقة متميزة في آنٍ واحد. نُظهر أن نهجنا يحقق تخفيضًا بنسبة 343\sim434 أضعاف في عدد العمليات الحسابية (FLOPs) وبنسبة 2\sim22 أضعاف في استخدام الذاكرة مقارنة بالنموذج الأساسي. وهذا يمكّن من تدريب نماذج أعمق باستخدام عدد أكبر من الإطارات المدخلة ضمن نفس الميزانية الحسابية. ولتقليل الحاجة إلى التحويلات الثلاثية الأبعاد الكبيرة، نقترح وحدة تجميع زمنية (Temporal Aggregation Module) لتمثيل الاعتماديات الزمنية في الفيديو بتكلفة حسابية إضافية ضئيلة جدًا. تحقق نماذجنا أداءً قويًا على عدة معايير للتعرف على الإجراءات، بما في ذلك Kinetics وSomething-Something وMoments-in-time. يمكن الاطلاع على الشفرة والنماذج عبر الرابط: https://github.com/IBM/bLVNet-TAM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp