HyperAIHyperAI
منذ 18 أيام

CoSMo: التوليد المحتوى-النمطي لاسترجاع الصور مع التغذية الراجعة النصية

{Bohyung Han, Dongwan Kim, Seungmin Lee}
CoSMo: التوليد المحتوى-النمطي لاسترجاع الصور مع التغذية الراجعة النصية
الملخص

نواجه مهمة استرجاع الصور باستخدام التغذية الراجعة النصية، حيث يتم دمج صورة مرجعية ونص مُعدِّل لتحديد الصورة الهدف المرغوبة. نركّز على تصميم مُجمّع صور-نص، أي دمج المدخلات متعددة الوسائط لإنتاج تمثيل يشبه تمثيل الصورة الهدف. في خوارزميتنا، تُسمّى "تعديل المحتوى-النمط (CoSMo)"، نعالج هذه التحديات من خلال إدخال وحدتين مستندة إلى الشبكات العصبية العميقة: وحدة تعديل المحتوى ووحدة تعديل النمط. تقوم وحدة تعديل المحتوى بإجراء تحديثات محلية على ميزات الصورة المرجعية بعد تطبيع نمط الصورة، حيث تُستخدم بلوك غير محلي متعدد الوسائط منفصل لتحقيق التعديلات المطلوبة على المحتوى. ثم تقوم وحدة تعديل النمط بإعادة إدخال معلومات النمط العالمية إلى الميزات المحدّثة. نقدّم نظرة معمقة على خوارزميتنا واختيارات التصميم الخاصة بها، ونُظهر أنّها تحقق أداءً متميزًا على عدة معايير لاسترجاع الصور-النص. يمكن الوصول إلى كودنا من خلال: https://github.com/postBG/CosMo.pytorch