HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل الحركة من البداية إلى النهاية لفهم الفيديو

Lijie Fan; Wenbing Huang; Chuang Gan; Stefano Ermon; Boqing Gong; Junzhou Huang
تعلم تمثيل الحركة من البداية إلى النهاية لفهم الفيديو
الملخص

رغم النجاحات الحديثة للتمثيلات المُتعلمة من البداية إلى النهاية، لا تزال الخصائص البصرية المُعدة يدويًا مستخدمة على نطاق واسع في مهام تحليل الفيديو. لسد هذه الثغرة، نقترح TVNet، وهي شبكة عصبية قابلة للتدريب من البداية إلى النهاية ومبتكرة، لتعلم خصائص مشابهة لتدفق الصور البصرية من البيانات. تتضمن TVNet حلاً محددًا لتدفق الصور البصرية وهو طريقة TV-L1، وتُبَادَأ بتوسيع عمليات التحسين الخاصة بها كطبقات عصبية. وبالتالي يمكن استخدام TVNet مباشرة دون الحاجة إلى أي تعلم إضافي. بالإضافة إلى ذلك، يمكن ربطها بشكل طبيعي مع شبكات أخرى محددة للمهمة لتشكيل هندسة من البداية إلى النهاية، مما يجعل طريقتنا أكثر كفاءة من الأساليب متعددة المراحل الحالية عن طريق تجنب الحاجة إلى حساب وتخزين الخصائص على القرص. أخيرًا، يمكن تعديل معلمات TVNet بشكل أكبر عبر التدريب من البداية إلى النهاية. هذا يمكّن TVNet من تعلم أنماط أغنى وأكثر تحديدًا للمهمة تتجاوز التدفق البصري الدقيق. أثبتت التجارب الواسعة على مقعدين للمعايير في مجال تمييز الأفعال فعالية الطريقة المقترحة. حققت شبكتنا TVNet دقة أفضل من جميع الأساليب المقارنة، مع الحفاظ على تنافسية مع أسرع نظير لها فيما يتعلق بوقت استخراج الخصائص.

تعلم تمثيل الحركة من البداية إلى النهاية لفهم الفيديو | أحدث الأوراق البحثية | HyperAI