HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التمثيلي عبر الوسائط لتمييز الحركات بدون عينة

Chung-Ching Lin Kevin Lin Linjie Li Lijuan Wang Zicheng Liu

الملخص

نُقدِّم إطارًا قائمًا على محول عبر الوسائط (cross-modal Transformer)، يُشغِّل ترميز البيانات المرئية والعلامات النصية معًا لتمييز الأفعال في بيئة صفرية (ZSAR). يعتمد نموذجنا على مسار مفاهيمي جديد، حيث يتم تعلُّم التمثيلات البصرية بالتزامن مع الروابط البصرية-الدلالية بطريقة نهائية (end-to-end). ويُوفِّر تصميم النموذج آلية طبيعية لتعلم التمثيلات البصرية والدلالية داخل فضاء معرفي مشترك، مما يُشجِّع التمثيلات البصرية المُتعلَّمة على أن تكون أكثر تمييزًا واتساقًا دلاليًا. وفي عملية الاستدلال الصفرية، نُصمِّم خطة بسيطة لنقل الدلالة، تُدمج معلومات الصلة الدلالية بين الفئات المرئية والغير مرئية لتكوين نماذج بصرية غير مرئية. وبذلك، يمكن الحفاظ على السمات التمييزية في البنية البصرية واستغلالها لتقليل المشكلات الشائعة في السياقات الصفرية، مثل فقدان المعلومات، والفجوة الدلالية، ومشكلة التجميع (hubness). وباستخدام بيئة صفرية صارمة (بدون تدريب مسبق على مجموعات بيانات إضافية)، تُظهر نتائج التجارب تحسنًا ملحوظًا على أفضل النماذج الحالية في ZSAR، مع تحقيق دقة ممتازة في التصنيف الأول (top-1) على مجموعات بيانات معيارية مثل UCF101 وHMDB51 وActivityNet. وسيتم إتاحة الشفرة المصدرية لاحقًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp