HyperAIHyperAI
منذ 2 أشهر

شبكة الصورة الكثيفة: ترميز وفهم التطور المكاني-زماني للفيديو

Xiaokai Chen; Ke Gao
شبكة الصورة الكثيفة: ترميز وفهم التطور المكاني-زماني للفيديو
الملخص

تُظهر العديد من الأساليب الرائدة في فهم الفيديو أنها تعتمد بشكل كبير على البيانات وتستغرق وقتًا طويلاً، مما يجعلها غير قادرة على التقاط جوهر التطور المكاني-الزماني بفعالية. تُبيِّن أحدث الأبحاث أن شبكة الـ CNN يمكنها الاستدلال حول العلاقة الثابتة بين الكيانات في الصور. لاستغلال قدراتها بشكل أكبر في استدلال التطور الديناميكي، نقدم وحدة شبكة جديدة تسمى شبكة الصورة الكثيفة (DenseImage Network - DIN) مع مساهمتين رئيسيتين:1) تمثيل جديد ومكثف للفيديو يُستخلص منه التطور المكاني-الزماني الهام إلى مصفوفة تُسمى الصورة الكثيفة (DenseImage)، وهي معدة لترميز الفيديو بكفاءة عالية.2) تقترح استراتيجية تعلم بسيطة ومعقدة في الوقت نفسه تستند إلى الصورة الكثيفة والشبكة العصبية المُحافظة على ترتيب الزمن (temporal-order-preserving CNN) لفهم الفيديو، والتي تتضمن قيد ارتباط زمني محلي يلتقط التطور الزمني بمقياس زمني متعدد باستخدام عرض مرشحات مختلفة.أظهرت التجارب الواسعة على مقعدين حديثين ومتعاقبين للتحدي أن شبكتنا للصورة الكثيفة يمكنها التقاط التطور المكاني-الزماني المشترك بين الأنشطة المشابهة بدقة، حتى مع وجود اختلافات بصرية ضخمة أو مقياس زمني مختلف. بالإضافة إلى ذلك، حققنا أفضل النتائج الحالية في مجال تمييز الأنشطة والحركات بأقل تكلفة زمنية وذاكرية، مما يشير إلى إمكاناتها الهائلة في تمثيل وفهم الفيديو.

شبكة الصورة الكثيفة: ترميز وفهم التطور المكاني-زماني للفيديو | أحدث الأوراق البحثية | HyperAI