HyperAIHyperAI
منذ 15 أيام

التعلم المُمَيِّز للتمثيلات المُتَعَدِّدة الوعي بالتماسك والانسجام لتصنيف الفيديو الصفري المُستند إلى الصور

Shi Pu, Kaili Zhao, Mao Zheng
التعلم المُمَيِّز للتمثيلات المُتَعَدِّدة الوعي بالتماسك والانسجام لتصنيف الفيديو الصفري المُستند إلى الصور
الملخص

تُعالج معظم الطرق تصنيف الفيديو الصفرية (zero-shot video classification) من خلال محاذاة التمثيلات البصرية والمعجمية ضمن الفئات المرئية، مما يحد من القدرة على التعميم على الفئات غير المرئية. ولتعزيز قدرة النموذج على التعميم، تقدم هذه الورقة إطارًا متكاملًا (end-to-end) يحافظ على خاصيتي المحاذاة والانتظام (uniformity) في التمثيلات لكل من الفئات المرئية وغير المرئية. وبشكل خاص، نُصِغ خسارة تباينية مراقبة (supervised contrastive loss) تُحاكي في آنٍ واحد محاذاة الميزات البصرية والمعجمية (أي المحاذاة)، وتشجع الميزات المُتعلمة على التوزيع المنتظم (أي الانتظام). على عكس الطرق الحالية التي تأخذ بعين الاعتبار فقط مسألة المحاذاة، نقترح خاصية الانتظام لحفظ أقصى معلومات ممكنة من الميزات الحالية، مما يُحسّن احتمالية وقوع الميزات غير المرئية بالقرب من البيانات المرئية. بالإضافة إلى ذلك، نُولّد ميزات الفئات غير المرئية من خلال اقتراح مولد فئات (class generator) يقوم بتمثيل الميزات المرئية عبر التداخل (interpolation) والتمديد الخارجي (extrapolation). علاوة على ذلك، نُقدّم معيارين جديدين: "القُرب" (closeness) و"الانتشار" (dispersion)، لقياس هاتين الخاصيتين، ويُستخدمان كمقاييس جديدة لقياس قدرة التعميم للنموذج. تُظهر التجارب أن طريقةنا تتفوّق بشكل ملحوظ على أحدث الطرق (SoTA) بنسبة تحسّن نسبية قدرها 28.1% على UCF101 و27.0% على HMDB51. ويُتاح الكود المصدري.

التعلم المُمَيِّز للتمثيلات المُتَعَدِّدة الوعي بالتماسك والانسجام لتصنيف الفيديو الصفري المُستند إلى الصور | أحدث الأوراق البحثية | HyperAI