HyperAIHyperAI

Command Palette

Search for a command to run...

PAT: تحويلة مُوجَّهة بالمكان للكشف الكثيف عن الإجراءات متعددة التسميات

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

الملخص

نُقدِّم PAT، وهو شبكة تعتمد على المُحَوِّل (Transformer) تتعلَّم الاعتماديات الزمنية المعقدة في الأفعال المترافقة في الفيديو من خلال استغلال السمات الزمنية متعددة المقياس. في الطرق الحالية، يفقد آلية الانتباه الذاتي في المُحَوِّلات المعلومات المكانية الزمنية، وهي معلومات ضرورية للكشف الموثوق عن الأفعال. لمعالجة هذه المشكلة، نقوم بـ (أ) دمج الترميز المكاني النسبي في آلية الانتباه الذاتي، و(ب) استغلال العلاقات الزمنية متعددة المقياس من خلال تصميم شبكة غير هرمية جديدة، على عكس الطرق الحديثة القائمة على المُحَوِّلات التي تعتمد على هيكل هرمي. ونُجادل بأن دمج آلية الانتباه الذاتي مع عمليات عينة فرعية متعددة في الطرق الهرمية يؤدي إلى فقدان أكبر للمعلومات المكانية. وقد قُمنا بتقييم أداء النهج المقترح على نوعين من مجموعات البيانات الصعبة ذات التسمية المتعددة الكثيفة، ونُظهر أن PAT يُحسِّن النتيجة الحالية للحالة الراهنة بنسبة 1.1% و0.6% من حيث مقياس mAP على مجموعتي بيانات Charades وMultiTHUMOS على التوالي، مما يُحقِّق بذلك أفضل نتيجة ممكنة في mAP بـ 26.5% و44.6% على التوالي. كما أجرينا دراسات تحليلية واسعة لفحص تأثير المكونات المختلفة في الشبكة المقترحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PAT: تحويلة مُوجَّهة بالمكان للكشف الكثيف عن الإجراءات متعددة التسميات | مستندات | HyperAI