HyperAIHyperAI

Command Palette

Search for a command to run...

ActionFormer: تحديد مواقع اللحظات الحركية باستخدام المحولات

Chenlin Zhang Jianxin Wu Yin Li

الملخص

أظهرت نماذج التحويل (Transformer) القائمة على الانتباه الذاتي نتائج مبهرة في تصنيف الصور والكشف عن الكائنات، وأخيرًا في فهم الفيديو. مستوحاة من هذا النجاح، نستعرض تطبيق شبكات التحويل (Transformer) في تحديد الأفعال الزمنية في الفيديو. ولتحقيق ذلك، نقدّم نموذج ActionFormer — نموذج بسيط لكنه قوي، قادر على تحديد الأفعال في الزمن وتحديد فئاتها في عملية واحدة، دون استخدام اقتراحات أفعال (action proposals) أو الاعتماد على نوافذ مسبقة التحديد (anchor windows). يدمج ActionFormer تمثيلًا متعدد المقياس (multiscale feature representation) مع الانتباه الذاتي المحلي، ويستخدم مُفككًا خفيف الوزن (light-weighted decoder) لتصنيف كل لحظة زمنية وتقدير حدود الفعل المقابلة. نُظهر أن هذا التصميم المنسق يؤدي إلى تحسينات كبيرة مقارنة بالعمل السابق. وبلا إضافات إضافية، يحقق ActionFormer تقييمًا بنسبة 71.0% mAP عند tIoU = 0.5 على مجموعة بيانات THUMOS14، متفوقًا على أفضل نموذج سابق بفارق 14.1 نقطة مئوية مطلقة. علاوةً على ذلك، يُظهر ActionFormer نتائج قوية على مجموعة بيانات ActivityNet 1.3 (36.6% متوسط mAP) وعلى مجموعة EPIC-Kitchens 100 (زيادة بنسبة 13.5% في المتوسط مقارنة بالعمل السابق). يمكن الوصول إلى الكود الخاص بنا عبر الرابط: http://github.com/happyharrycn/actionformer_release.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp