HyperAIHyperAI

Command Palette

Search for a command to run...

CoSMo: التوليد المحتوى-النمطي لاسترجاع الصور مع التغذية الراجعة النصية

Bohyung Han Dongwan Kim Seungmin Lee

الملخص

نواجه مهمة استرجاع الصور باستخدام التغذية الراجعة النصية، حيث يتم دمج صورة مرجعية ونص مُعدِّل لتحديد الصورة الهدف المرغوبة. نركّز على تصميم مُجمّع صور-نص، أي دمج المدخلات متعددة الوسائط لإنتاج تمثيل يشبه تمثيل الصورة الهدف. في خوارزميتنا، تُسمّى "تعديل المحتوى-النمط (CoSMo)"، نعالج هذه التحديات من خلال إدخال وحدتين مستندة إلى الشبكات العصبية العميقة: وحدة تعديل المحتوى ووحدة تعديل النمط. تقوم وحدة تعديل المحتوى بإجراء تحديثات محلية على ميزات الصورة المرجعية بعد تطبيع نمط الصورة، حيث تُستخدم بلوك غير محلي متعدد الوسائط منفصل لتحقيق التعديلات المطلوبة على المحتوى. ثم تقوم وحدة تعديل النمط بإعادة إدخال معلومات النمط العالمية إلى الميزات المحدّثة. نقدّم نظرة معمقة على خوارزميتنا واختيارات التصميم الخاصة بها، ونُظهر أنّها تحقق أداءً متميزًا على عدة معايير لاسترجاع الصور-النص. يمكن الوصول إلى كودنا من خلال: https://github.com/postBG/CosMo.pytorch


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp