منذ 6 أشهر

الملخص

يزداد عدد الأفعال في العالم الحقيقي، مما يجعل من الصعب على النماذج التقليدية القائمة على التعلم العميق التعرف على الأفعال غير المرئية. في الآونة الأخيرة، تم تكييف النماذج البصرية واللغوية المُدرّبة مسبقًا القائمة على الصور (I-VL) لتمكين فهم السياقات "صفرية المعرفة" بكفاءة. وقد أثبت دمج هذه النماذج مع محولات (transformers) لتحقيق نمذجة زمنية فعالة في التعرف على الأفعال بدون تدريب مسبق (ZSAR). ومع ذلك، لا تزال أهمية نمذجة السياق المكاني المحلي للأجسام والبيئة التي تحدث فيها الأفعال غير مستكشفة بشكل كافٍ. في هذا العمل، نقترح إطارًا جديدًا للـ ZSAR يُسمى LoCATe-GAT، يتكون من محول زمني جديد يُدعى LoCATe (Local Context-Aggregating Temporal transformer) وشبكة انتباه رسمية (GAT). بشكل خاص، تُستخدم الترميزات الصورية والنصية المستخرجة من نموذج I-VL المُدرّب مسبقًا كمدخلات لـ LoCATe-GAT. مستوحى من ملاحظة أن السياقات المرتبطة بالكائنات والبيئة تُسهم في التمييز بين الأفعال والتشابه الوظيفي بينها، يُستخدم LoCATe لالتقاط السياق المحلي متعدد المقاييس من خلال طبقات تقوية متعددة المقاييس (dilated convolutional layers) أثناء النمذجة الزمنية. علاوةً على ذلك، تقوم الشبكة المقترحة GAT بنمذجة العلاقات الدلالية بين الفئات، مما يحقق تآزرًا قويًا مع التضمينات الفيديو الناتجة عن LoCATe. أظهرت التجارب الواسعة على أربع معايير شائعة الاستخدام – UCF101، HMDB51، ActivityNet، وKinetics – تحقيقنا لنتائج متفوقة على مستوى الحالة الحالية. وبشكل خاص، حققنا مكاسب نسبية قدرها 3.8% و4.8% على هذه المعايير في بيئات التعرف التقليدية، و16.6% على UCF101 في بيئة ZSAR العامة. بالنسبة للمجموعات الكبيرة مثل ActivityNet وKinetics، حققنا مكاسب نسبية قدرها 31.8% و27.9% على التوالي مقارنة بالأساليب السابقة. بالإضافة إلى ذلك، حصلنا على مكاسب قدرها 25.3% و18.4% على UCF101 وHMDB51 وفقًا لبروتوكول التقييم الأخير "TruZe".

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة

Arijit Sur Divyam Singal Sandipan Sarma

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters