HyperAIHyperAI

Command Palette

Search for a command to run...

CDC: شبكات التلافيف والتفكيك التلافيفي لتحديد مواقع الأحداث الزمنية بدقة في مقاطع الفيديو غير المقصوصة

Zheng Shou†, Jonathan Chan†, Alireza Zareian†, Kazuyuki Miyazawa‡, and Shih-Fu Chang†

الملخص

تحديد الأفعال الزمني هو مشكلة مهمة ومعقدة. نظراً لوجود فيديو طويل غير مقصوص يتكون من عدة حالات لأفعال ومحتويات خلفية معقدة، فإنه ليس فقط يجب علينا التعرف على فئات هذه الأفعال، بل أيضاً تحديد وقت البدء ووقت النهاية لكل حالة. العديد من أنظمة الطليعة تستخدم تصنيفات على مستوى القطع لاختيار وتقييم المقترحات ذات الحدود المحددة مسبقاً. ومع ذلك، فإن النموذج المثالي يجب أن يتجاوز مستوى القطع ويقوم بتنبؤات كثيفة بدقة زمنية دقيقة لتحديد الحدود الزمنية بدقة. لهذا الغرض، قمنا بتصميم شبكة جديدة من نوع Convolutional-De-Convolutional (CDC) التي تضع مرشحات CDC فوق شبكات 3D ConvNets، والتي أثبتت فعاليتها في استخلاص معاني الأفعال ولكنها تقلل من طول البيانات الزمنية للبيانات الإدخال. يقوم المرشح CDC المقترح بأداء عمليات التكبير الزمني والتصغير المكاني بشكل متزامن للتنبؤ بالأفعال بدقة المستوى الإطاري (frame-level). يتميز هذا المرشح بقدرته على نمذجة معاني الأفعال في الزمان والمكان والديناميكيات الزمنية الدقيقة بشكل مشترك. نقوم بتدريب الشبكة CDC بطريقة شاملة وكفاءة عالية. لا يقتصر نموذجنا على تحقيق أداء متفوق في اكتشاف الأفعال في كل إطار، بل يعزز أيضاً دقة تحديد الحدود الزمنية بشكل كبير. وأخيراً، تظهر الشبكة CDC كفاءة عالية جداً حيث يمكنها معالجة 500 إطار في الثانية الواحدة على خادم GPU واحد. سنقوم قريبًا بتحديث النسخة الجاهزة للتصوير ونشر الكود المصدر عبر الإنترنت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp