HyperAIHyperAI

Command Palette

Search for a command to run...

تنويع التجميع الزمني وتفكيك العمق المكاني-الزماني لتصنيف الفيديو بكفاءة

Lee Youngwan ; Kim Hyung-Il ; Yun Kimin ; Moon Jinyoung

الملخص

البحوث التي جذبت الانتباه مؤخرًا في مجال تصنيف الفيديو تتعلق بنمذجة الزمنية والهندسة ثلاثية الأبعاد الفعالة. ومع ذلك، فإن طرق نمذجة الزمن غير فعّالة أو أن الهندسة ثلاثية الأبعاد الفعالة تهتم بشكل أقل بنمذجة الزمن. لجسر هذه الهوة، نقترح هندسة ثلاثية أبعاد فعّالة للنمذجة الزمنية، تُسمى VoV3D، والتي تتكون من وحدة تجميع زمني واحدة (T-OSA) ومكون مفكك عمقي، D(2+1)D. تم تصميم T-OSA لبناء هرم الميزات عن طريق تجميع الميزات الزمنية مع حقول استقبال زمنية مختلفة. تكدس هذه الوحدة T-OSA يمكّن الشبكة نفسها من نمذجة العلاقات الزمنية على المدى القصير وعلى المدى الطويل بين الإطارات دون الحاجة إلى أي وحدات خارجية. مستوحاة من تقسيم النواة وتقسيم القناة، قمنا أيضًا بتصميم وحدة تقسيم مكاني وزمني عمقي، سميت D(2+1)D، التي تقوم بتقسيم التحويل الثلاثي الأبعاد العمقي إلى تحويلين مكاني وزمني عمقيين لجعل شبكتنا أكثر خفة وكفاءة. باستخدام الطريقة المقترحة للنمذجة الزمنية (T-OSA) والمكون الفعّال المفكك (D(2+1)D)، نقوم ببناء نوعين من شبكات VoV3D، وهما VoV3D-M وVoV3D-L. بفضل كفاءتها وقدرتها على النمذجة الزمنية، تحتوي VoV3D-L على 6 أضعاف أقل من معلمات النموذج و16 ضعفًا أقل من الحسابات مقارنة بالطرق الرائدة في النمذجة الزمنية على كلٍ من Something-Something وKinetics-400. بالإضافة إلى ذلك، تظهر VoV3D قدرة أفضل على النمذجة الزمنية مقارنة بهندسة ثلاثية الأبعاد فعالة رائدة أخرى هي X3D، والتي لديها سعة نموذج مشابهة. نأمل أن تكون VoV3D نقطة بداية للتصنيف الفعال للفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp