HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة

{Arijit Sur Divyam Singal Sandipan Sarma}

الملخص

يزداد عدد الأفعال في العالم الحقيقي، مما يجعل من الصعب على النماذج التقليدية القائمة على التعلم العميق التعرف على الأفعال غير المرئية. في الآونة الأخيرة، تم تكييف النماذج البصرية واللغوية المُدرّبة مسبقًا القائمة على الصور (I-VL) لتمكين فهم السياقات "صفرية المعرفة" بكفاءة. وقد أثبت دمج هذه النماذج مع محولات (transformers) لتحقيق نمذجة زمنية فعالة في التعرف على الأفعال بدون تدريب مسبق (ZSAR). ومع ذلك، لا تزال أهمية نمذجة السياق المكاني المحلي للأجسام والبيئة التي تحدث فيها الأفعال غير مستكشفة بشكل كافٍ. في هذا العمل، نقترح إطارًا جديدًا للـ ZSAR يُسمى LoCATe-GAT، يتكون من محول زمني جديد يُدعى LoCATe (Local Context-Aggregating Temporal transformer) وشبكة انتباه رسمية (GAT). بشكل خاص، تُستخدم الترميزات الصورية والنصية المستخرجة من نموذج I-VL المُدرّب مسبقًا كمدخلات لـ LoCATe-GAT. مستوحى من ملاحظة أن السياقات المرتبطة بالكائنات والبيئة تُسهم في التمييز بين الأفعال والتشابه الوظيفي بينها، يُستخدم LoCATe لالتقاط السياق المحلي متعدد المقاييس من خلال طبقات تقوية متعددة المقاييس (dilated convolutional layers) أثناء النمذجة الزمنية. علاوةً على ذلك، تقوم الشبكة المقترحة GAT بنمذجة العلاقات الدلالية بين الفئات، مما يحقق تآزرًا قويًا مع التضمينات الفيديو الناتجة عن LoCATe. أظهرت التجارب الواسعة على أربع معايير شائعة الاستخدام – UCF101، HMDB51، ActivityNet، وKinetics – تحقيقنا لنتائج متفوقة على مستوى الحالة الحالية. وبشكل خاص، حققنا مكاسب نسبية قدرها 3.8% و4.8% على هذه المعايير في بيئات التعرف التقليدية، و16.6% على UCF101 في بيئة ZSAR العامة. بالنسبة للمجموعات الكبيرة مثل ActivityNet وKinetics، حققنا مكاسب نسبية قدرها 31.8% و27.9% على التوالي مقارنة بالأساليب السابقة. بالإضافة إلى ذلك، حصلنا على مكاسب قدرها 25.3% و18.4% على UCF101 وHMDB51 وفقًا لبروتوكول التقييم الأخير "TruZe".

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
zero-shot-action-recognition-on-activitynetLoCATe-GAT
Top-1 Accuracy: 73.8
zero-shot-action-recognition-on-hmdb51LoCATe-GAT
Top-1 Accuracy: 50.7
zero-shot-action-recognition-on-kineticsLoCATe-GAT
Top-1 Accuracy: 58.7
zero-shot-action-recognition-on-ucf101LoCATe-GAT
Top-1 Accuracy: 76.0

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة | الأوراق البحثية | HyperAI