HyperAIHyperAI

Command Palette

Search for a command to run...

VSE++: تحسين التضمينات البصرية-الدلالية باستخدام النماذج السلبية الصعبة

Fartash Faghri David J. Fleet Jamie Ryan Kiros Sanja Fidler

الملخص

نقدم تقنية جديدة لتعلم التضمينات البصرية-الدلالية لأجل الاسترجاع العابر للأنماط. مستوحاة من التنقيب عن النماذج السلبية الصعبة، استخدام النماذج السلبية الصعبة في التنبؤ الهيكلي، ودوال الخسارة المرتبة، نقوم بتقديم تغيير بسيط في دوال الخسارة الشائعة المستخدمة للتضمينات متعددة الأنماط. هذا التغيير، بالاشتراك مع التعديل الدقيق واستخدام البيانات المعززة، يؤدي إلى مكاسب كبيرة في أداء الاسترجاع. نعرض نهجنا، VSE++ (التضمين البصري-الدلالي المحسن)، على مجموعتي بيانات MS-COCO وFlickr30K باستخدام دراسات الإلغاء الجزئي ومقارنات مع الطرق الحالية. على مجموعة بيانات MS-COCO، يتفوق نهجنا على أفضل الطرق الحالية بنسبة 8.8% في استرجاع الوصف النصي و11.3% في استرجاع الصور (عند R@1).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp