منذ 6 أشهر

الملخص

نموذج الحركة الديناميكية في الفيديوهات بشكل فعّال يُعد أمرًا حاسمًا في مهام التعرف على الحركات. تعتمد معظم الطرق المتطورة حاليًا بشكل كبير على التدفق البصري الكثيف كتمثيل للحركة. وعلى الرغم من أن دمج التدفق البصري مع الإطارات RGB كمدخلات يمكن أن يحقق أداءً ممتازًا في التعرف على الحركات، إلا أن استخراج التدفق البصري يستغرق وقتًا طويلاً جدًا. وهذا بالتأكيد يشكل عائقًا أمام التعرف الفعلي على الحركات في الوقت الفعلي. في هذه الورقة، نسلط الضوء على تطوير تعرف سريع على الحركات من خلال التقليل من الاعتماد على التدفق البصري. تكمن دوافعنا في ملاحظة أن التحريك الصغير للحدود الحركية هو العنصر الأكثر أهمية في التمييز بين الحركات، لذا صممنا مُؤشر حركي جديد يُسمى "استمرارية المظهر" (Persistence of Appearance - PA). على عكس التدفق البصري، يركّز مؤشر PA أكثر على استخلاص معلومات الحركة عند الحدود. كما أنه أكثر كفاءة، حيث يعتمد فقط على تجميع الفروق بين البكسلات في الفضاء المميزات، بدلًا من استخدام بحث مكثف على مستويات مربعات (patch-wise) لجميع المتجهات الحركية الممكنة. يُعد مؤشر PA أسرع بمرات أكثر من 1000 مرة (8196 إطارًا في الثانية مقابل 8 إطارات في الثانية) مقارنة بالتدفق البصري التقليدي من حيث سرعة نمذجة الحركة. ولتحسين تجميع الديناميكية قصيرة المدى في PA إلى ديناميكية طويلة المدى، صممنا أيضًا استراتيجية تجميع زمنية عالمية تُسمى "تجميع التجميع الزمني المتنوع" (Various-timescale Aggregation Pooling - VAP)، التي تمكن من نمذجة علاقات زمنية بعيدة المدى بشكل تكيفي عبر مقاييس زمنية مختلفة. في النهاية، قمنا بدمج مؤشر PA وVAP لتكوين إطار عمل موحد يُسمى "شبكة المظهر المستمر" (Persistent Appearance Network - PAN)، والتي تمتلك قدرة قوية على النمذجة الزمنية. أظهرت التجارب الواسعة على ستة معايير صعبة للتعرف على الحركات أن PAN تتفوق على الطرق المتطورة حديثًا من حيث الأداء، مع استهلاك منخفض للعمليات الحسابية (FLOPs). يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/zhang-can/PAN-PyTorch.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر

Can Zhang Yuexian Zou Guang Chen Lei Gan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters