HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المتناوب المتوقع-الحد الأقصى للتعلم المتناظر لتمثيلات مدمجة للصورة واللغة

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

الملخص

تُعتمد معظم Approaches لتعلم تمثيلات الفيديو واللغة على التعلم التبايني، مثل CLIP، لتحويل ميزات الفيديو والنص إلى فضاء خفي مشترك وفقًا لتشابه المعاني بين أزواج النص والفيديو. ومع ذلك، فإن الفضاءات الخفية المشتركة التي يتم تعلمها غالبًا ما تكون غير مثالية، ولا يمكن التغلب تمامًا على الفجوة بين التمثيل البصري والتمثيل النصي. في هذا البحث، نقترح تعلم التباين المتوقع-الحد الأقصى (EMCL) لتعلم تمثيلات مكثفة للفيديو واللغة. بشكل خاص، نستخدم خوارزمية التوقع-الحد الأقصى (Expectation-Maximization) للعثور على مجموعة مكثفة من الأساسيات في الفضاء الخفي، حيث يمكن تمثيل الميزات بشكل موجز كمزيج خطي لهذه الأساسيات. يؤدي هذا التحليل المكوّن للتمثيلات الفيديو-اللغة إلى تقليل درجة الفضاء الخفي، مما يزيد من قدرة التمثيل على التعبير عن المعاني. أثبتت التجارب الواسعة على ثلاث مجموعات بيانات معيارية لاسترجاع الفيديو بناءً على النص أن EMCL يمكنه تعلم تمثيلات أكثر تمييزًا للفيديو واللغة مقارنة بالطرق السابقة، ويتفوق بشكل كبير على أفضل الطرق السابقة في جميع المقاييس. وبشكل أكثر تشجيعًا، يمكن تطبيق الطريقة المقترحة لتحسين أداء الطرق الحالية إما كطبقة تدريب مشترك أو كوحدة استدلال جاهزة دون تدريب إضافي، مما يجعل من السهل دمجها في أي طريقة موجودة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المتناوب المتوقع-الحد الأقصى للتعلم المتناظر لتمثيلات مدمجة للصورة واللغة | مستندات | HyperAI