ActionFormer: تحديد مواقع اللحظات الحركية باستخدام المحولات

أظهرت نماذج التحويل (Transformer) القائمة على الانتباه الذاتي نتائج مبهرة في تصنيف الصور والكشف عن الكائنات، وأخيرًا في فهم الفيديو. مستوحاة من هذا النجاح، نستعرض تطبيق شبكات التحويل (Transformer) في تحديد الأفعال الزمنية في الفيديو. ولتحقيق ذلك، نقدّم نموذج ActionFormer — نموذج بسيط لكنه قوي، قادر على تحديد الأفعال في الزمن وتحديد فئاتها في عملية واحدة، دون استخدام اقتراحات أفعال (action proposals) أو الاعتماد على نوافذ مسبقة التحديد (anchor windows). يدمج ActionFormer تمثيلًا متعدد المقياس (multiscale feature representation) مع الانتباه الذاتي المحلي، ويستخدم مُفككًا خفيف الوزن (light-weighted decoder) لتصنيف كل لحظة زمنية وتقدير حدود الفعل المقابلة. نُظهر أن هذا التصميم المنسق يؤدي إلى تحسينات كبيرة مقارنة بالعمل السابق. وبلا إضافات إضافية، يحقق ActionFormer تقييمًا بنسبة 71.0% mAP عند tIoU = 0.5 على مجموعة بيانات THUMOS14، متفوقًا على أفضل نموذج سابق بفارق 14.1 نقطة مئوية مطلقة. علاوةً على ذلك، يُظهر ActionFormer نتائج قوية على مجموعة بيانات ActivityNet 1.3 (36.6% متوسط mAP) وعلى مجموعة EPIC-Kitchens 100 (زيادة بنسبة 13.5% في المتوسط مقارنة بالعمل السابق). يمكن الوصول إلى الكود الخاص بنا عبر الرابط: http://github.com/happyharrycn/actionformer_release.