منذ 18 أيام
الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة
{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}

الملخص
في هذه الورقة، نقدم نهجًا لاسترجاع الصور المشروط والمُركَّب بناءً على ميزات CLIP. في هذه الامتداد لاسترجاع الصور القائم على المحتوى (CBIR)، تُدمج الصورة مع نص يقدّم معلومات حول نوايا المستخدم، وهو مرتبط بمجالات تطبيقية مثل التجارة الإلكترونية. يعتمد النهج المقترح على مرحلة تدريب أولية، حيث تُستخدم مزيج بسيط من الميزات البصرية والنصية لتحسين نموذج الترميز النصي في CLIP. ثم في مرحلة تدريب ثانية، نتعلم شبكة مُركِّبة أكثر تعقيدًا تدمج بين الميزات البصرية والنصية. ويُستخدم التعلم التمييزي (Contrastive learning) في كلا المرحلتين. ويحقق النهج المقترح أداءً من الدرجة الأولى (state-of-the-art) في استرجاع الصور المشروط ضمن مجموعة بيانات FashionIQ، وفي استرجاع الصور المركَّبة ضمن مجموعة بيانات CIRR الأحدث.