HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات

Kumara Kahatapitiya Michael S. Ryoo

الملخص

في هذه الورقة، نقدم شبكة كروز-فينا (Coarse-Fine Networks)، وهي معمارية ثنائية التدفق تستفيد من تمايزات مختلفة في الدقة الزمنية لتعلم تمثيلات فيديو أفضل للحركة على المدى الطويل. تُعالج النماذج التقليدية للفيديوهات المدخلات بحلقة زمنية ثابتة واحدة (أو قليلة) دون أي اختيار ديناميكي للإطارات. ومع ذلك، نجادل بأن معالجة عدة دقة زمنية للمدخلات، وبشكل ديناميكي من خلال تعلّم تقدير أهمية كل إطار، يمكن أن يُحسّن بشكل كبير تمثيلات الفيديو، خصوصًا في مجال تحديد الأنشطة الزمنية. لتحقيق هذا الهدف، نقترح (1) "تجميع الشبكة" (Grid Pool)، وهي طبقة تناقص زمني تُتعلم لاستخراج السمات الخشنة، و(2) "الدمج متعدد المراحل" (Multi-stage Fusion)، وهي آلية انتباه فضائي-زمني تُدمج السياق الدقيق مع السمات الخشنة. ونُظهر أن طريقة عملنا تتفوق على أحدث النماذج في كشف الحركات في مجموعات بيانات عامة مثل Charades، مع تقليل كبير في استهلاك الحوسبة والذاكرة. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/kkahatapitiya/Coarse-Fine-Networks


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات | مستندات | HyperAI