HyperAIHyperAI

Command Palette

Search for a command to run...

TSM: وحدة التحول الزمني لفهم الفيديو بكفاءة

Ji Lin Chuang Gan Song Han

الملخص

النمو المتسارع في بث الفيديو يثير تحديات في أداء فهم الفيديو بدقة عالية وتكلفة حسابية منخفضة. تتميز الشبكات العصبية التقليدية ثنائية الأبعاد (2D CNNs) بأنها رخيصة الحساب لكنها لا تستطيع التقاط العلاقات الزمنية؛ أما الطرق المستندة إلى الشبكات العصبية ثلاثية الأبعاد (3D CNN) فتستطيع تحقيق أداء جيد ولكنها مكثفة الحساب، مما يجعل نشرها مكلفاً. في هذا البحث، نقترح وحدة تحول زمني عامة وفعالة (Temporal Shift Module - TSM) تتمتع بالكفاءة العالية والأداء العالي. وبشكل خاص، يمكنها تحقيق أداء شبكات 3D CNN مع الحفاظ على تعقيد شبكات 2D CNN. تقوم وحدة TSM بنقل جزء من القنوات على البعد الزمني، مما يسهل تبادل المعلومات بين الإطارات المجاورة. يمكن إدراجها في شبكات 2D CNN لتحقيق النمذجة الزمنية دون أي تكلفة حسابية أو معلمات إضافية. كما قمنا بتوسيع نطاق استخدام TSM إلى البيئة المباشرة (online setting)، مما يتيح التعرف على الفيديو والكشف عن الأشياء في الفيديو بشكل مباشر وفي وقت حقيقي وبتأخير منخفض. وحدة TSM دقيقة وكفوءة: عند نشر البحث، احتلت المرتبة الأولى في قائمة Something-Something؛ وعلى أجهزة Jetson Nano و Galaxy Note8، حققت تأخيراً منخفضاً بلغ 13 مللي ثانية و 35 مللي ثانية للتعرف على الفيديو بشكل مباشر. الرمز البرمجي متاح على الرابط التالي:https://github.com/mit-han-lab/temporal-shift-module.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TSM: وحدة التحول الزمني لفهم الفيديو بكفاءة | مستندات | HyperAI