HyperAIHyperAI
منذ 2 أشهر

تنويع التجميع الزمني وتفكيك العمق المكاني-الزماني لتصنيف الفيديو بكفاءة

Lee, Youngwan ; Kim, Hyung-Il ; Yun, Kimin ; Moon, Jinyoung
تنويع التجميع الزمني وتفكيك العمق المكاني-الزماني لتصنيف الفيديو بكفاءة
الملخص

البحوث التي جذبت الانتباه مؤخرًا في مجال تصنيف الفيديو تتعلق بنمذجة الزمنية والهندسة ثلاثية الأبعاد الفعالة. ومع ذلك، فإن طرق نمذجة الزمن غير فعّالة أو أن الهندسة ثلاثية الأبعاد الفعالة تهتم بشكل أقل بنمذجة الزمن. لجسر هذه الهوة، نقترح هندسة ثلاثية أبعاد فعّالة للنمذجة الزمنية، تُسمى VoV3D، والتي تتكون من وحدة تجميع زمني واحدة (T-OSA) ومكون مفكك عمقي، D(2+1)D. تم تصميم T-OSA لبناء هرم الميزات عن طريق تجميع الميزات الزمنية مع حقول استقبال زمنية مختلفة. تكدس هذه الوحدة T-OSA يمكّن الشبكة نفسها من نمذجة العلاقات الزمنية على المدى القصير وعلى المدى الطويل بين الإطارات دون الحاجة إلى أي وحدات خارجية. مستوحاة من تقسيم النواة وتقسيم القناة، قمنا أيضًا بتصميم وحدة تقسيم مكاني وزمني عمقي، سميت D(2+1)D، التي تقوم بتقسيم التحويل الثلاثي الأبعاد العمقي إلى تحويلين مكاني وزمني عمقيين لجعل شبكتنا أكثر خفة وكفاءة. باستخدام الطريقة المقترحة للنمذجة الزمنية (T-OSA) والمكون الفعّال المفكك (D(2+1)D)، نقوم ببناء نوعين من شبكات VoV3D، وهما VoV3D-M وVoV3D-L. بفضل كفاءتها وقدرتها على النمذجة الزمنية، تحتوي VoV3D-L على 6 أضعاف أقل من معلمات النموذج و16 ضعفًا أقل من الحسابات مقارنة بالطرق الرائدة في النمذجة الزمنية على كلٍ من Something-Something وKinetics-400. بالإضافة إلى ذلك، تظهر VoV3D قدرة أفضل على النمذجة الزمنية مقارنة بهندسة ثلاثية الأبعاد فعالة رائدة أخرى هي X3D، والتي لديها سعة نموذج مشابهة. نأمل أن تكون VoV3D نقطة بداية للتصنيف الفعال للفيديو.