HyperAIHyperAI

Command Palette

Search for a command to run...

STAR-Transformer: نموذج انتباه متقاطع فضائي-زمني لتمييز الحركات البشرية

Dasom Ahn Sangwon Kim Hyunsu Hong Byoung Chul Ko

الملخص

في التعرف على الحركات، وعلى الرغم من أن دمج مقاطع الفيديو الزمنية-المكانية مع ميزات الهيكل العظمي يمكن أن يحسن أداء التعرف، إلا أن ذلك يتطلب نموذجًا منفصلًا وموازنة تمثيل الميزات لبيانات متعددة الوسائط. ولحل هذه المشكلات، نقترح نموذج STAR-Transformer (Spatio-Temporal Al cRoss Transformer)، الذي يمكنه تمثيل الميزات المتقاطعة بين الوسائط بشكل فعّال كمتجه قابل للتعرف. أولاً، يتم استخراج الإطارات المرئية من الفيديو المدخل كـ "أوسمة شبكة عالمية" (global grid tokens)، بينما يتم استخراج تسلسل الهيكل العظمي كـ "أوسمة خريطة المفاصل" (joint map tokens). ثم يتم تجميع هذه الأوسمة إلى أوسمة متعددة الفئات وإدخالها إلى نموذج STAR-Transformer. يتكون جزء الترميز (encoder) في STAR-Transformer من وحدة انتباه ذاتي كامل (FAttn) ووحدة انتباه زمنية-مكانية مزدوجة الشكل (ZAttn) مقترحة. وبالمثل، يتكون فك الترميز المستمر (decoder) من وحدة FAttn ووحدة انتباه زمنية-مكانية ثنائية (BAttn) مقترحة. ويتعلم نموذج STAR-Transformer تمثيلًا متعدد الميزات فعّالًا للخصائص الزمنية-المكانية من خلال ترتيب مناسب لأزواج وحدات FAttn وZAttn وBAttn. أظهرت النتائج التجريبية على مجموعات بيانات Penn-Action وNTU RGB+D 60 و120 تحسنًا ملموسًا في الأداء مقارنة بالطرق السابقة الأفضل في مجالها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp