HyperAIHyperAI
منذ 17 أيام

التعلم الذاتي للتشابه في الفضاء والزمن كحركة معممة للتعرف على الإجراءات في الفيديو

Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho
التعلم الذاتي للتشابه في الفضاء والزمن كحركة معممة للتعرف على الإجراءات في الفيديو
الملخص

غالبًا ما تفشل الت convolution الفضائية الزمنية في تعلُّم ديناميكية الحركة في مقاطع الفيديو، وبالتالي يُعدّ تمثيل فعّال للحركة ضروريًا لفهم الفيديو في البيئات الواقعية. في هذا البحث، نقترح تمثيلًا غنيًا وقويًا للحركة يستند إلى مفهوم التشابه الذاتي الفضائي الزمني (STSS). معطى تسلسل من الإطارات، يُمثّل STSS كل منطقة محلية من خلال درجة التشابه مع جيرانها في الفضاء والزمن. وبتحويل السمات البصرية إلى قيم علاقاتية، يمكّن هذا النموذج من التعلّم من التمثيلات الهيكلية في الفضاء والزمن بشكل أفضل. نستفيد من الحجم الكامل لتمثيل STSS، ونسمح لنموذجنا بتعلُّم استخراج تمثيل فعّال للحركة من هذا الحجم. يُسمّى الكتلة العصبية المقترحة "SELFY"، وهي قابلة للإدراج بسهولة في الهياكل العصبية، وتُدرّس بشكل كامل (end-to-end) دون الحاجة إلى تدريب إضافي مُراقَب. وبوجود حجم كافٍ من الجوار في الفضاء والزمن، يتمكّن النموذج من التقاط التفاعلات طويلة المدى والحركة السريعة في الفيديو بشكل فعّال، مما يؤدي إلى تصنيف دقيق للحركات. تُظهر التحليلات التجريبية تفوق هذا الأسلوب على الأساليب السابقة في نمذجة الحركة، كما يُظهر تكاملًا متكاملًا مع السمات الفضائية الزمنية المستمدة من الت convolution المباشرة. وعلى معايير التصنيف القياسي للحركات، مثل Something-Something-V1 & V2، وDiving-48، وFineGym، حقق الأسلوب المقترح أفضل النتائج المُحققة حتى تاريخه.

التعلم الذاتي للتشابه في الفضاء والزمن كحركة معممة للتعرف على الإجراءات في الفيديو | أحدث الأوراق البحثية | HyperAI