أنت تشاهد مرة واحدة فقط: معمارية موحدة من نوع CNN لتحديد المواقع الزمكانية للإجراءات في الوقت الفعلي

تتطلب التحديد المكاني-الزماني للإجراءات دمج مصدرين معلوماتيْن في البنية المُصممة: (1) المعلومات الزمنية المستمدة من الإطارات السابقة، و(2) المعلومات المكانية المستمدة من الإطار المفتاحي. تُستخدم في الطرق الحديثة الأكثر تقدماً شبكات منفصلة لاستخراج هذين النوعين من المعلومات، ثم تُطبَّق آلية إضافية لدمجها للحصول على النتائج النهائية. في هذا العمل، نقدّم YOWO، وهي بنية موحدة من الشبكات العصبية التلافيفية (CNN) للتحديد المكاني-الزماني الفوري للإجراءات في تدفقات الفيديو. تتميز YOWO ببنية ذات مرحلة واحدة، وتضم فرعين لاستخراج المعلومات الزمنية والمكانية بشكل متزامن، وتُقدّر مربعات الحدود والاحتمالات الخاصة بالإجراءات مباشرة من قطع الفيديو في تقييم واحد. وبما أن البنية بأكملها موحدة، يمكن تحسينها بشكل كامل من الطرف إلى الطرف (end-to-end). وتتميز بنية YOWO بالسرعة، حيث تُقدّم 34 إطارًا في الثانية على قطع فيديو مكوّنة من 16 إطارًا، و62 إطارًا في الثانية على قطع مكوّنة من 8 إطارات، وهي حاليًا أسرع بنية مُتقدمة في مهام التحديد المكاني-الزماني للإجراءات. وتجدر الإشارة إلى أن YOWO تتفوّق على النتائج السابقة في مجموعتي بيانات J-HMDB-21 وUCF101-24 بنسبة تحسّن ملحوظة تصل إلى حوالي 3% و12% على التوالي. علاوةً على ذلك، تُعد YOWO أول ووحيدة من بين البنية ذات المرحلة الواحدة التي تُقدّم نتائج تنافسية على مجموعة بيانات AVA. ونُعلن عن توفير كود المشروع ونماذج التدريب المسبق للجمهور.