HyperAIHyperAI

Command Palette

Search for a command to run...

أنت تشاهد مرة واحدة فقط: معمارية موحدة من نوع CNN لتحديد المواقع الزمكانية للإجراءات في الوقت الفعلي

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

الملخص

تتطلب التحديد المكاني-الزماني للإجراءات دمج مصدرين معلوماتيْن في البنية المُصممة: (1) المعلومات الزمنية المستمدة من الإطارات السابقة، و(2) المعلومات المكانية المستمدة من الإطار المفتاحي. تُستخدم في الطرق الحديثة الأكثر تقدماً شبكات منفصلة لاستخراج هذين النوعين من المعلومات، ثم تُطبَّق آلية إضافية لدمجها للحصول على النتائج النهائية. في هذا العمل، نقدّم YOWO، وهي بنية موحدة من الشبكات العصبية التلافيفية (CNN) للتحديد المكاني-الزماني الفوري للإجراءات في تدفقات الفيديو. تتميز YOWO ببنية ذات مرحلة واحدة، وتضم فرعين لاستخراج المعلومات الزمنية والمكانية بشكل متزامن، وتُقدّر مربعات الحدود والاحتمالات الخاصة بالإجراءات مباشرة من قطع الفيديو في تقييم واحد. وبما أن البنية بأكملها موحدة، يمكن تحسينها بشكل كامل من الطرف إلى الطرف (end-to-end). وتتميز بنية YOWO بالسرعة، حيث تُقدّم 34 إطارًا في الثانية على قطع فيديو مكوّنة من 16 إطارًا، و62 إطارًا في الثانية على قطع مكوّنة من 8 إطارات، وهي حاليًا أسرع بنية مُتقدمة في مهام التحديد المكاني-الزماني للإجراءات. وتجدر الإشارة إلى أن YOWO تتفوّق على النتائج السابقة في مجموعتي بيانات J-HMDB-21 وUCF101-24 بنسبة تحسّن ملحوظة تصل إلى حوالي 3% و12% على التوالي. علاوةً على ذلك، تُعد YOWO أول ووحيدة من بين البنية ذات المرحلة الواحدة التي تُقدّم نتائج تنافسية على مجموعة بيانات AVA. ونُعلن عن توفير كود المشروع ونماذج التدريب المسبق للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp