HyperAIHyperAI
منذ 11 أيام

الشبكات الموزعة زمنيًا للتصنيف الدلالي السريع للفيديو

Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff, Federico Perazzi
الشبكات الموزعة زمنيًا للتصنيف الدلالي السريع للفيديو
الملخص

نقدم TDNet، وهو شبكة موزعة زمنيًا مصممة لتقديم تقسيم دلالي للفيديو بسرعة ودقة عالية. لاحظنا أن الميزات المستخرجة من طبقة عالية المستوى معينة في شبكة عصبية عميقة (CNN) يمكن تقريبها من خلال تجميع الميزات المستخرجة من عدة شبكات فرعية أ淺 (أقل عمقًا). وباستغلال الاتصال الزمني المتأصل في الفيديوهات، قمنا بتوزيع هذه الشبكات الفرعية على الإطارات المتتالية. وبالتالي، في كل خطوة زمنية، نحتاج فقط إلى إجراء عملية حسابية خفيفة لاستخراج مجموعة ميزات فرعية من شبكة فرعية واحدة. ثم يتم إعادة تكوين الميزات الكاملة المستخدمة في التقسيم من خلال تطبيق وحدة انتشار انتباه جديدة تُعوّض عن التشوهات الهندسية بين الإطارات. كما تم تقديم خسارة تعلم المعرفة المجمعة (grouped knowledge distillation loss) لتحسين قدرة التمثيل على كل من مستويات الميزات الكاملة والفرعية. أظهرت التجارب على مجموعات بيانات Cityscapes وCamVid وNYUD-v2 أن طريقة العمل لدينا تحقق دقة من المستوى الرائد (state-of-the-art) مع تسريع كبير وتقليل في التأخير (latency).

الشبكات الموزعة زمنيًا للتصنيف الدلالي السريع للفيديو | أحدث الأوراق البحثية | HyperAI