HyperAIHyperAI
منذ 17 أيام

نمذجة الانتباه الذاتي الفضائي الزمني مع نقل الشريحة الزمنية للتعرف على الحركات

Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Xian-Sheng Hua, Lei Zhang
نمذجة الانتباه الذاتي الفضائي الزمني مع نقل الشريحة الزمنية للتعرف على الحركات
الملخص

لقد حققت الطرق القائمة على المُحَوِّل (Transformer) تقدماً كبيراً في المهام البصرية القائمة على الصور ثنائية الأبعاد في الآونة الأخيرة. ومع ذلك، فإن تطبيق المُحَوِّلات الزمنية-المكانية مباشرةً على بيانات الفيديو في المهام ثلاثية الأبعاد مثل التعرف على الحركات يُسبب أعباءً كبيرة على الحساب والذاكرة، وذلك بسبب الزيادة الكبيرة في عدد اللوحات (patches) وتعقيد التحويل الذاتي (self-attention) التربيعي. إذ بقي التحدي الكبير المتمثل في نمذجة التحويل الذاتي ثلاثي الأبعاد لبيانات الفيديو بطريقة فعّالة وكفؤة يشكل عقبة رئيسية أمام تطوير المُحَوِّلات في هذا السياق. في هذا البحث، نقترح طريقة تُسمى "نقل اللوحات الزمنية" (Temporal Patch Shift - TPS) لتمكين نمذجة التحويل الذاتي ثلاثي الأبعاد بكفاءة في المُحَوِّلات المستخدمة في التعرف على الحركات بناءً على الفيديو. تنقل TPS جزءاً من اللوحات بأسلوب موزايكي محدد في الاتجاه الزمني، مما يحوّل عملية التحويل الذاتي المكانية الاعتيادية إلى عملية زمنية-مكانية مع تكلفة إضافية ضئيلة. وبهذا، يمكن حساب التحويل الذاتي ثلاثي الأبعاد باستخدام تكلفة حسابية وذاكرة شبه مماثلة لتلك المستخدمة في التحويل الذاتي ثنائي الأبعاد. تُعد TPS وحدة قابلة للتركيب والتشغيل (plug-and-play) ويمكن دمجها بسهولة في النماذج الحالية من المُحَوِّلات ثنائية الأبعاد لتعزيز التعلم المكاني-الزمني للسمات. تحقق الطريقة المقترحة أداءً تنافسياً مع أحدث النماذج الحالية على مجموعتي بيانات Something-something V1 & V2، Diving-48، وKinetics400، مع تفوق كبير من حيث الكفاءة في الحساب والذاكرة. يمكن الاطلاع على الكود المصدري لـ TPS عبر الرابط التالي: https://github.com/MartinXM/TPS.

نمذجة الانتباه الذاتي الفضائي الزمني مع نقل الشريحة الزمنية للتعرف على الحركات | أحدث الأوراق البحثية | HyperAI