منذ 17 أيام

2D أم لا 2D؟ اختيار تكيفي للتحولات الثلاثية الأبعاد لتمRecognition الفيديو بكفاءة

Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis

الملخص

تُعدّ الشبكات التلافيفية الثلاثية الأبعاد (3D Convolutional Networks) شائعة الاستخدام في التعرف على الفيديو. وعلى الرغم من تحقيقها أداءً متميزًا في الأداء على المعايير القياسية، فإنها تعمل على تسلسل من الإطارات باستخدام تلافيف ثلاثية الأبعاد، مما يجعلها مكلفة من حيث الحوسبة. وباستغلال التباين الكبير بين مقاطع الفيديو المختلفة، نقدّم Ada3D، وهي إطار عمل للحساب الشرطي يتعلم سياسات استخدام ثلاثية الأبعاد مخصصة لكل مثال، بهدف تحديد الإطارات والطبقات التلافيفية التي سيتم استخدامها في الشبكة ثلاثية الأبعاد. وتُستخلص هذه السياسات من خلال شبكة اختيار خفيفة الوزن ذات رأسين، مشروطة بكل مقطع فيديو مدخل. ثم، يتم استخدام فقط الإطارات والطبقات التلافيفية التي تختارها شبكة الاختيار في النموذج ثلاثي الأبعاد لإنتاج التنبؤات. وتُحسَّن شبكة الاختيار باستخدام طرق تدرج السياسة (policy gradient) لتحقيق مكافأة تُشجع على إجراء تنبؤات صحيحة باستخدام حد أدنى من الحوسبة. أجرينا تجارب على ثلاث معايير للتعرف على الفيديو، ونُظهر أن طريقةنا تحقق دقة مشابهة للنماذج الثلاثية الأبعاد الأفضل حالياً، مع الحاجة إلى 20% إلى 50% أقل من الحوسبة عبر مجموعات بيانات مختلفة. كما نُظهر أن السياسات المُتعلمة قابلة للنقل (transferable)، وأن Ada3D متوافقة مع مختلف الهياكل الأساسية (backbones) وطرق اختيار المقاطع الحديثة. وتشير التحليلات النوعية إلى أن طريقتنا تُخصص عددًا أقل من التلافيف الثلاثية الأبعاد والإطارات للمدخلات "الثابتة"، بينما تُستخدم كميات أكبر من التلافيف والإطارات في المقاطع التي تحتوي على حركة مكثفة.