HyperAIHyperAI

Command Palette

Search for a command to run...

2D أم لا 2D؟ اختيار تكيفي للتحولات الثلاثية الأبعاد لتمRecognition الفيديو بكفاءة

Hengduo Li Zuxuan Wu Abhinav Shrivastava Larry S. Davis

الملخص

تُعدّ الشبكات التلافيفية الثلاثية الأبعاد (3D Convolutional Networks) شائعة الاستخدام في التعرف على الفيديو. وعلى الرغم من تحقيقها أداءً متميزًا في الأداء على المعايير القياسية، فإنها تعمل على تسلسل من الإطارات باستخدام تلافيف ثلاثية الأبعاد، مما يجعلها مكلفة من حيث الحوسبة. وباستغلال التباين الكبير بين مقاطع الفيديو المختلفة، نقدّم Ada3D، وهي إطار عمل للحساب الشرطي يتعلم سياسات استخدام ثلاثية الأبعاد مخصصة لكل مثال، بهدف تحديد الإطارات والطبقات التلافيفية التي سيتم استخدامها في الشبكة ثلاثية الأبعاد. وتُستخلص هذه السياسات من خلال شبكة اختيار خفيفة الوزن ذات رأسين، مشروطة بكل مقطع فيديو مدخل. ثم، يتم استخدام فقط الإطارات والطبقات التلافيفية التي تختارها شبكة الاختيار في النموذج ثلاثي الأبعاد لإنتاج التنبؤات. وتُحسَّن شبكة الاختيار باستخدام طرق تدرج السياسة (policy gradient) لتحقيق مكافأة تُشجع على إجراء تنبؤات صحيحة باستخدام حد أدنى من الحوسبة. أجرينا تجارب على ثلاث معايير للتعرف على الفيديو، ونُظهر أن طريقةنا تحقق دقة مشابهة للنماذج الثلاثية الأبعاد الأفضل حالياً، مع الحاجة إلى 20% إلى 50% أقل من الحوسبة عبر مجموعات بيانات مختلفة. كما نُظهر أن السياسات المُتعلمة قابلة للنقل (transferable)، وأن Ada3D متوافقة مع مختلف الهياكل الأساسية (backbones) وطرق اختيار المقاطع الحديثة. وتشير التحليلات النوعية إلى أن طريقتنا تُخصص عددًا أقل من التلافيف الثلاثية الأبعاد والإطارات للمدخلات "الثابتة"، بينما تُستخدم كميات أكبر من التلافيف والإطارات في المقاطع التي تحتوي على حركة مكثفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
2D أم لا 2D؟ اختيار تكيفي للتحولات الثلاثية الأبعاد لتمRecognition الفيديو بكفاءة | مستندات | HyperAI