HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم الذاتي للتشابه في الفضاء والزمن كحركة معممة للتعرف على الإجراءات في الفيديو

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

الملخص

غالبًا ما تفشل الت convolution الفضائية الزمنية في تعلُّم ديناميكية الحركة في مقاطع الفيديو، وبالتالي يُعدّ تمثيل فعّال للحركة ضروريًا لفهم الفيديو في البيئات الواقعية. في هذا البحث، نقترح تمثيلًا غنيًا وقويًا للحركة يستند إلى مفهوم التشابه الذاتي الفضائي الزمني (STSS). معطى تسلسل من الإطارات، يُمثّل STSS كل منطقة محلية من خلال درجة التشابه مع جيرانها في الفضاء والزمن. وبتحويل السمات البصرية إلى قيم علاقاتية، يمكّن هذا النموذج من التعلّم من التمثيلات الهيكلية في الفضاء والزمن بشكل أفضل. نستفيد من الحجم الكامل لتمثيل STSS، ونسمح لنموذجنا بتعلُّم استخراج تمثيل فعّال للحركة من هذا الحجم. يُسمّى الكتلة العصبية المقترحة "SELFY"، وهي قابلة للإدراج بسهولة في الهياكل العصبية، وتُدرّس بشكل كامل (end-to-end) دون الحاجة إلى تدريب إضافي مُراقَب. وبوجود حجم كافٍ من الجوار في الفضاء والزمن، يتمكّن النموذج من التقاط التفاعلات طويلة المدى والحركة السريعة في الفيديو بشكل فعّال، مما يؤدي إلى تصنيف دقيق للحركات. تُظهر التحليلات التجريبية تفوق هذا الأسلوب على الأساليب السابقة في نمذجة الحركة، كما يُظهر تكاملًا متكاملًا مع السمات الفضائية الزمنية المستمدة من الت convolution المباشرة. وعلى معايير التصنيف القياسي للحركات، مثل Something-Something-V1 & V2، وDiving-48، وFineGym، حقق الأسلوب المقترح أفضل النتائج المُحققة حتى تاريخه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp