HyperAIHyperAI

Command Palette

Search for a command to run...

D3D: شبكات ثلاثية الأبعاد مُصفَّاة لتمييز أفعال الفيديو

Jonathan C. Stroud*† [email protected] David A. Ross* [email protected] Chen Sun* [email protected] Jia Deng*‡ [email protected] Rahul Sukthankar* [email protected]

الملخص

تستخدم الطرق المعاصرة لتمييز الأنشطة في الفيديو عادةً مزيجًا من شبكتين: التيار المكاني، الذي يأخذ الإطارات RGB كمدخلات، والتيار الزمني، الذي يأخذ التدفق البصري كمدخلات. وفي الأعمال الحديثة، تتكون كلتا هاتين الشبكتين من شبكات العصبونات ثلاثية الأبعاد (3D Convolutional Neural Networks)، والتي تطبق مرشحات زمانية-مكانية على مقطع الفيديو قبل إجراء التصنيف. بمفهوم عام، يجب أن تسمح المرشحات الزمنية للتيار المكاني بتعلم تمثيلات الحركة، مما يجعل التيار الزمني زائدًا عن الحاجة. ومع ذلك، لا يزال هناك فائدة كبيرة في أداء تمييز الأنشطة عند تضمين تيار زمني منفصل تمامًا، مما يشير إلى أن التيار المكاني "يفقد" بعض الإشارات التي يتم التقاطها بواسطة التيار الزمني.في هذا العمل، نقوم أولاً بالتحقيق فيما إذا كانت تمثيلات الحركة فعليًا مفقودة في التيار المكاني لشبكات العصبونات ثلاثية الأبعاد (3D CNNs). ثانيًا، نوضح أنه يمكن تحسين هذه التمثيلات عن طريق الاستخلاص (distillation)، وذلك بضبط التيار المكاني لتوقع مخرجات التيار الزمني، مما يؤدي إلى دمج النموذجين في تيار واحد فعليًا. وأخيرًا، نظهر أن شبكتنا الثلاثية المستخلصة (Distilled 3D Network - D3D) تحقق أداءً مكافئًا لنهجتي الجريان الثنائيتين باستخدام نموذج واحد فقط وبلا حاجة لحساب التدفق البصري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp