HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيلات الصور والنصوص العميقة المحافظة على البنية

Liwei Wang; Yin Li; Svetlana Lazebnik
تعلم تمثيلات الصور والنصوص العميقة المحافظة على البنية
الملخص

يقترح هذا البحث طريقة لتعلم الترميزات المشتركة للصور والنصوص باستخدام شبكة عصبية ذات فرعين ومكونة من عدة طبقات للاسقاطات الخطية تليها العمليات اللاخطية. يتم تدريب الشبكة باستخدام هدف الهامش الكبير الذي يجمع بين قيود الترتيب عبر الآراء وقيود الحفاظ على البنية المجاورة داخل الرأي، مستوحاة من أدبيات تعلم المقاييس (metric learning). تظهر التجارب الواسعة أن نهجنا يحقق تحسينات كبيرة في الدقة لاسترجاع الصور إلى النصوص والعكس. تصل طريقتنا إلى نتائج جديدة رائدة على مجموعتي بيانات Flickr30K وMSCOCO للصور والجمل، وتظهر إمكاناتها في المهمة الجديدة لتخصيص العبارات (phrase localization) على مجموعة بيانات Flickr30K Entities.

تعلم تمثيلات الصور والنصوص العميقة المحافظة على البنية | أحدث الأوراق البحثية | HyperAI