منذ 7 أشهر

الملخص

يقترح هذا البحث طريقة لتعلم الترميزات المشتركة للصور والنصوص باستخدام شبكة عصبية ذات فرعين ومكونة من عدة طبقات للاسقاطات الخطية تليها العمليات اللاخطية. يتم تدريب الشبكة باستخدام هدف الهامش الكبير الذي يجمع بين قيود الترتيب عبر الآراء وقيود الحفاظ على البنية المجاورة داخل الرأي، مستوحاة من أدبيات تعلم المقاييس (metric learning). تظهر التجارب الواسعة أن نهجنا يحقق تحسينات كبيرة في الدقة لاسترجاع الصور إلى النصوص والعكس. تصل طريقتنا إلى نتائج جديدة رائدة على مجموعتي بيانات Flickr30K وMSCOCO للصور والجمل، وتظهر إمكاناتها في المهمة الجديدة لتخصيص العبارات (phrase localization) على مجموعة بيانات Flickr30K Entities.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار