HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المرتبط بالحركة للإيقاع البصري لتصنيف الإجراءات القائمة على الفيديو

Yuanzhong Liu Junsong Yuan Zhigang Tu

الملخص

يُعدّ "الإيقاع البصري للعمل" مؤشرًا يُميّز الديناميكية والمقاييس الزمنية للعمل البشري، وهو ما يُسهم بشكل كبير في التمييز بين الأفعال البشرية التي تتشابه بشكل كبير من حيث الديناميكية البصرية والملامح المرئية. في الطرق السابقة، تم التقاط الإيقاع البصري إما عبر أخذ عينات من الفيديوهات الخام بسرعات متعددة، مما يتطلب شبكة متعددة الطبقات مكلفة للتعامل مع كل سرعة، أو عبر أخذ عينات هرمية من ميزات النموذج الأساسي (backbone)، والتي تعتمد بشكل كبير على الميزات عالية المستوى، وبالتالي تفوت الديناميكية الزمنية الدقيقة. في هذا العمل، نقترح وحدة الترابط الزمني (Temporal Correlation Module - TCM)، التي يمكن دمجها بسهولة في النماذج الأساسية الحالية لتمييز الأفعال بطريقة "تُركب وتُستخدم فورًا"، بهدف استخلاص إيقاع العمل البصري من ميزات النموذج الأساسية منخفضة المستوى في طبقة واحدة بشكل ملحوظ. وبشكل خاص، تتألف وحدة TCM من مكوّنين رئيسيين: وحدة الديناميكية الزمنية متعددة المقاييس (Multi-scale Temporal Dynamics Module - MTDM)، ووحدة الانتباه الزمني (Temporal Attention Module - TAM). تُطبّق MTDM عملية الترابط لتعلم الديناميكية الزمنية الدقيقة على مستوى كل بكسل، سواء بالنسبة للإيقاع السريع أو البطيء. أما TAM، فهي تُركّز بشكل تكيفي على الميزات التعبيرية وتحجب الميزات غير الضرورية من خلال تحليل المعلومات الشاملة عبر مختلف الإيقاعات. وقد أظهرت تجارب واسعة أُجريت على عدة معايير لتمييز الأفعال، مثل Something-Something V1 & V2، Kinetics-400، UCF-101، وHMDB-51، أن وحدة TCM المقترحة فعّالة جدًا في تحسين أداء النماذج الحالية لتمييز الأفعال القائمة على الفيديو بفارق كبير. وتم إتاحة الكود المصدري بشكل عام على الرابط التالي: https://github.com/yzfly/TCM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المرتبط بالحركة للإيقاع البصري لتصنيف الإجراءات القائمة على الفيديو | مستندات | HyperAI