HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المُمَيِّز للتمثيلات المُتَعَدِّدة الوعي بالتماسك والانسجام لتصنيف الفيديو الصفري المُستند إلى الصور

Shi Pu Kaili Zhao Mao Zheng

الملخص

تُعالج معظم الطرق تصنيف الفيديو الصفرية (zero-shot video classification) من خلال محاذاة التمثيلات البصرية والمعجمية ضمن الفئات المرئية، مما يحد من القدرة على التعميم على الفئات غير المرئية. ولتعزيز قدرة النموذج على التعميم، تقدم هذه الورقة إطارًا متكاملًا (end-to-end) يحافظ على خاصيتي المحاذاة والانتظام (uniformity) في التمثيلات لكل من الفئات المرئية وغير المرئية. وبشكل خاص، نُصِغ خسارة تباينية مراقبة (supervised contrastive loss) تُحاكي في آنٍ واحد محاذاة الميزات البصرية والمعجمية (أي المحاذاة)، وتشجع الميزات المُتعلمة على التوزيع المنتظم (أي الانتظام). على عكس الطرق الحالية التي تأخذ بعين الاعتبار فقط مسألة المحاذاة، نقترح خاصية الانتظام لحفظ أقصى معلومات ممكنة من الميزات الحالية، مما يُحسّن احتمالية وقوع الميزات غير المرئية بالقرب من البيانات المرئية. بالإضافة إلى ذلك، نُولّد ميزات الفئات غير المرئية من خلال اقتراح مولد فئات (class generator) يقوم بتمثيل الميزات المرئية عبر التداخل (interpolation) والتمديد الخارجي (extrapolation). علاوة على ذلك، نُقدّم معيارين جديدين: "القُرب" (closeness) و"الانتشار" (dispersion)، لقياس هاتين الخاصيتين، ويُستخدمان كمقاييس جديدة لقياس قدرة التعميم للنموذج. تُظهر التجارب أن طريقةنا تتفوّق بشكل ملحوظ على أحدث الطرق (SoTA) بنسبة تحسّن نسبية قدرها 28.1% على UCF101 و27.0% على HMDB51. ويُتاح الكود المصدري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp