HyperAIHyperAI
منذ 2 أشهر

إعادة التفكير في تعلم الخصائص المكانية-الزمانية: مبادلات السرعة والدقة في تصنيف الفيديو

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy
إعادة التفكير في تعلم الخصائص المكانية-الزمانية: مبادلات السرعة والدقة في تصنيف الفيديو
الملخص

رغم التقدم المستمر في تحليل الفيديو بفضل تبني شبكات النيورونات المتلافهة (CNNs)، فإن التحسن النسبي كان أقل حدة مقارنة بتقسيم الصور الثابتة ثنائية الأبعاد. هناك ثلاث تحديات رئيسية، وهي تمثيل الميزات المكانية (الصورية)، وتمثيل المعلومات الزمنية، وتعقيد النموذج/الحساب. أظهرت الدراسات الحديثة التي أجراها كاريرا وزيسيرمان أن شبكات النيورونات المتلافهة ثلاثية الأبعاد (3D CNNs)، والتي تم توسيعها من شبكات ثنائية الأبعاد ومسبقة التدريب على ImageNet، يمكن أن تكون طريقة واعدة لتعلم التمثيل المكاني والزماني. ومع ذلك، فيما يتعلق بتعقيد النموذج/الحساب، فإن شبكات النيورونات المتلافهة ثلاثية الأبعاد أكثر تكلفة بكثير من شبكات النيورونات المتلافهة ثنائية الأبعاد وتكون عرضة للتكيف الزائد. نسعى لتحقيق توازن بين السرعة والدقة من خلال بناء نظام تصنيف فيديو فعال وكفء عبر استكشاف منهجي لخيارات تصميم الشبكة الحرجة. بشكل خاص، نوضح أنه يمكن استبدال العديد من عمليات التلاف三维卷积(3D convolutions) بالتكلفة المنخفضة للتلاف ثنائي الأبعاد (2D convolutions). بطريقة مدهشة، يتم تحقيق أفضل النتائج (في كل من السرعة والدقة) عند استبدال عمليات التلاف ثلاثية الأبعاد في الجزء السفلي من الشبكة، مما يشير إلى أن تعلم التمثيل الزمني للميزات الدلالية عالية المستوى أكثر فائدة. استنتاجنا يعمم على مجموعات بيانات ذات خصائص مختلفة للغاية. عند الجمع بين عدة تصاميم فعالة من حيث التكلفة أخرى مثل التلاف المكاني/الزماني القابل للفصل وبوابات الميزات، يؤدي نظامنا إلى نظام تصنيف فيديو فعال يحقق نتائج تنافسية للغاية على عدة مقاييس تصنيف الحركات (Kinetics, Something-something, UCF101 و HMDB)، بالإضافة إلى مقاييسين للكشف عن الحركات (التوضع) (JHMDB و UCF101-24).请注意,由于阿拉伯语和中文在语法结构上的差异,我将最后一句中的“三维卷积”翻译为了“عمليات التlauf ثلاثية الأبعاد”以确保句子的流畅性和准确性。同时,对于一些不常见的术语,如“feature gating”,我在翻译时保留了其英文原词并进行了适当的解释。

إعادة التفكير في تعلم الخصائص المكانية-الزمانية: مبادلات السرعة والدقة في تصنيف الفيديو | أحدث الأوراق البحثية | HyperAI