منذ 6 أشهر

الملخص

في هذه الورقة، نقدم نهجًا لاسترجاع الصور المشروط والمُركَّب بناءً على ميزات CLIP. في هذه الامتداد لاسترجاع الصور القائم على المحتوى (CBIR)، تُدمج الصورة مع نص يقدّم معلومات حول نوايا المستخدم، وهو مرتبط بمجالات تطبيقية مثل التجارة الإلكترونية. يعتمد النهج المقترح على مرحلة تدريب أولية، حيث تُستخدم مزيج بسيط من الميزات البصرية والنصية لتحسين نموذج الترميز النصي في CLIP. ثم في مرحلة تدريب ثانية، نتعلم شبكة مُركِّبة أكثر تعقيدًا تدمج بين الميزات البصرية والنصية. ويُستخدم التعلم التمييزي (Contrastive learning) في كلا المرحلتين. ويحقق النهج المقترح أداءً من الدرجة الأولى (state-of-the-art) في استرجاع الصور المشروط ضمن مجموعة بيانات FashionIQ، وفي استرجاع الصور المركَّبة ضمن مجموعة بيانات CIRR الأحدث.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار