HyperAIHyperAI
منذ 18 أيام

الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة

{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}
الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة
الملخص

في هذه الورقة، نقدم نهجًا لاسترجاع الصور المشروط والمُركَّب بناءً على ميزات CLIP. في هذه الامتداد لاسترجاع الصور القائم على المحتوى (CBIR)، تُدمج الصورة مع نص يقدّم معلومات حول نوايا المستخدم، وهو مرتبط بمجالات تطبيقية مثل التجارة الإلكترونية. يعتمد النهج المقترح على مرحلة تدريب أولية، حيث تُستخدم مزيج بسيط من الميزات البصرية والنصية لتحسين نموذج الترميز النصي في CLIP. ثم في مرحلة تدريب ثانية، نتعلم شبكة مُركِّبة أكثر تعقيدًا تدمج بين الميزات البصرية والنصية. ويُستخدم التعلم التمييزي (Contrastive learning) في كلا المرحلتين. ويحقق النهج المقترح أداءً من الدرجة الأولى (state-of-the-art) في استرجاع الصور المشروط ضمن مجموعة بيانات FashionIQ، وفي استرجاع الصور المركَّبة ضمن مجموعة بيانات CIRR الأحدث.

الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة | أحدث الأوراق البحثية | HyperAI