تخيل وصفات IDT ومعالم التدفق البصري I3D للاعتراف بالأفعال باستخدام شبكات النيورونات العصبية الم convoledة (CNNs)

في هذا البحث، نعيد استخدام التمثيلات الفيديو اليدوية التقليدية للاعتراف بالأفعال ونضفي حياة جديدة إلى هذه التقنيات من خلال خطوة هلوسة تعتمد على الشبكات العصبية الم convoled (CNN). رغم استخدام الإطارات RGB والتدفق البصري، فإن نموذج I3D (بين غيره) يزدهر عند دمج مخرجاته مع مسار الكثافة المحسّنة (IDT) والمُستخرجة باستخدام وصفات الفيديو الأولية التي يتم ترميزها عبر أكياس الكلمات (BoW) ومتجهات فيشر (FV). يعتبر هذا الدمج بين شبكات CNN والتمثيلات اليدوية مكلفاً من حيث الوقت بسبب المعالجة السابقة واستخراج الوصفات والترميز وتuning المعلمات. لذلك، نقترح شبكة قابلة للتدريب من النهاية إلى النهاية تحتوي على مسارات تتعلم تمثيلات BoW/FV المستندة إلى IDT في مرحلة التدريب ويمكن دمجها بسهولة مع نموذج I3D. بشكل خاص، تقوم كل مسار بأخذ خرائط الميزات من نموذج I3D قبل الطبقة الأخيرة للCONV 1D وتعلم كيفية "ترجمة" هذه الخرائط إلى تمثيلات BoW/FV. وبالتالي، يمكن لنموذجنا أن يتخيل ويستخدم مثل هذه التمثيلات المُصنعة في مرحلة الاختبار. نظهر أن حتى ميزات المسار الكامل لتدفق الضوء في I3D يمكن تخيلها، مما يبسط الأنبوب. يوفر نموذجنا ما بين 20 إلى 55 ساعة من الحسابات ويحقق أفضل النتائج المتاحة حالياً على أربع قواعد بيانات عامة.请注意,某些术语如“Bag-of-Words”(أكياس الكلمات) 和 “Fisher Vectors”(متجهات فيشر) 在阿拉伯语中没有广泛接受的翻译,因此采用了直接音译的方法,并在首次出现时附上了英文原文以确保信息的完整性。同时,“convolutional neural networks”被翻译为“الشبكات العصبية الم convoled”,这是阿拉伯语中常用的翻译方式。其他术语则根据其在科技领域的通用译法进行了翻译。