HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل الحركة من البداية إلى النهاية لفهم الفيديو

Lijie Fan Wenbing Huang Chuang Gan Stefano Ermon Boqing Gong Junzhou Huang

الملخص

رغم النجاحات الحديثة للتمثيلات المُتعلمة من البداية إلى النهاية، لا تزال الخصائص البصرية المُعدة يدويًا مستخدمة على نطاق واسع في مهام تحليل الفيديو. لسد هذه الثغرة، نقترح TVNet، وهي شبكة عصبية قابلة للتدريب من البداية إلى النهاية ومبتكرة، لتعلم خصائص مشابهة لتدفق الصور البصرية من البيانات. تتضمن TVNet حلاً محددًا لتدفق الصور البصرية وهو طريقة TV-L1، وتُبَادَأ بتوسيع عمليات التحسين الخاصة بها كطبقات عصبية. وبالتالي يمكن استخدام TVNet مباشرة دون الحاجة إلى أي تعلم إضافي. بالإضافة إلى ذلك، يمكن ربطها بشكل طبيعي مع شبكات أخرى محددة للمهمة لتشكيل هندسة من البداية إلى النهاية، مما يجعل طريقتنا أكثر كفاءة من الأساليب متعددة المراحل الحالية عن طريق تجنب الحاجة إلى حساب وتخزين الخصائص على القرص. أخيرًا، يمكن تعديل معلمات TVNet بشكل أكبر عبر التدريب من البداية إلى النهاية. هذا يمكّن TVNet من تعلم أنماط أغنى وأكثر تحديدًا للمهمة تتجاوز التدفق البصري الدقيق. أثبتت التجارب الواسعة على مقعدين للمعايير في مجال تمييز الأفعال فعالية الطريقة المقترحة. حققت شبكتنا TVNet دقة أفضل من جميع الأساليب المقارنة، مع الحفاظ على تنافسية مع أسرع نظير لها فيما يتعلق بوقت استخراج الخصائص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp