Command Palette
Search for a command to run...
تعلم تمثيلات الصور والنصوص العميقة المحافظة على البنية
تعلم تمثيلات الصور والنصوص العميقة المحافظة على البنية
Liwei Wang* [email protected] Yin Li† [email protected] Svetlana Lazebnik* [email protected]
الملخص
يقترح هذا البحث طريقة لتعلم الترميزات المشتركة للصور والنصوص باستخدام شبكة عصبية ذات فرعين ومكونة من عدة طبقات للاسقاطات الخطية تليها العمليات اللاخطية. يتم تدريب الشبكة باستخدام هدف الهامش الكبير الذي يجمع بين قيود الترتيب عبر الآراء وقيود الحفاظ على البنية المجاورة داخل الرأي، مستوحاة من أدبيات تعلم المقاييس (metric learning). تظهر التجارب الواسعة أن نهجنا يحقق تحسينات كبيرة في الدقة لاسترجاع الصور إلى النصوص والعكس. تصل طريقتنا إلى نتائج جديدة رائدة على مجموعتي بيانات Flickr30K وMSCOCO للصور والجمل، وتظهر إمكاناتها في المهمة الجديدة لتخصيص العبارات (phrase localization) على مجموعة بيانات Flickr30K Entities.