HyperAIHyperAI
منذ 17 أيام

بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر

Can Zhang, Yuexian Zou, Guang Chen, Lei Gan
بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر
الملخص

نموذج الحركة الديناميكية في الفيديوهات بشكل فعّال يُعد أمرًا حاسمًا في مهام التعرف على الحركات. تعتمد معظم الطرق المتطورة حاليًا بشكل كبير على التدفق البصري الكثيف كتمثيل للحركة. وعلى الرغم من أن دمج التدفق البصري مع الإطارات RGB كمدخلات يمكن أن يحقق أداءً ممتازًا في التعرف على الحركات، إلا أن استخراج التدفق البصري يستغرق وقتًا طويلاً جدًا. وهذا بالتأكيد يشكل عائقًا أمام التعرف الفعلي على الحركات في الوقت الفعلي. في هذه الورقة، نسلط الضوء على تطوير تعرف سريع على الحركات من خلال التقليل من الاعتماد على التدفق البصري. تكمن دوافعنا في ملاحظة أن التحريك الصغير للحدود الحركية هو العنصر الأكثر أهمية في التمييز بين الحركات، لذا صممنا مُؤشر حركي جديد يُسمى "استمرارية المظهر" (Persistence of Appearance - PA). على عكس التدفق البصري، يركّز مؤشر PA أكثر على استخلاص معلومات الحركة عند الحدود. كما أنه أكثر كفاءة، حيث يعتمد فقط على تجميع الفروق بين البكسلات في الفضاء المميزات، بدلًا من استخدام بحث مكثف على مستويات مربعات (patch-wise) لجميع المتجهات الحركية الممكنة. يُعد مؤشر PA أسرع بمرات أكثر من 1000 مرة (8196 إطارًا في الثانية مقابل 8 إطارات في الثانية) مقارنة بالتدفق البصري التقليدي من حيث سرعة نمذجة الحركة. ولتحسين تجميع الديناميكية قصيرة المدى في PA إلى ديناميكية طويلة المدى، صممنا أيضًا استراتيجية تجميع زمنية عالمية تُسمى "تجميع التجميع الزمني المتنوع" (Various-timescale Aggregation Pooling - VAP)، التي تمكن من نمذجة علاقات زمنية بعيدة المدى بشكل تكيفي عبر مقاييس زمنية مختلفة. في النهاية، قمنا بدمج مؤشر PA وVAP لتكوين إطار عمل موحد يُسمى "شبكة المظهر المستمر" (Persistent Appearance Network - PAN)، والتي تمتلك قدرة قوية على النمذجة الزمنية. أظهرت التجارب الواسعة على ستة معايير صعبة للتعرف على الحركات أن PAN تتفوق على الطرق المتطورة حديثًا من حيث الأداء، مع استهلاك منخفض للعمليات الحسابية (FLOPs). يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/zhang-can/PAN-PyTorch.

بان: نحو التعرف السريع على الحركات من خلال تعلم استمرارية المظهر | أحدث الأوراق البحثية | HyperAI