HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة

{Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati}

الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة

الملخص

في هذه الورقة، نقدم نهجًا لاسترجاع الصور المشروط والمُركَّب بناءً على ميزات CLIP. في هذه الامتداد لاسترجاع الصور القائم على المحتوى (CBIR)، تُدمج الصورة مع نص يقدّم معلومات حول نوايا المستخدم، وهو مرتبط بمجالات تطبيقية مثل التجارة الإلكترونية. يعتمد النهج المقترح على مرحلة تدريب أولية، حيث تُستخدم مزيج بسيط من الميزات البصرية والنصية لتحسين نموذج الترميز النصي في CLIP. ثم في مرحلة تدريب ثانية، نتعلم شبكة مُركِّبة أكثر تعقيدًا تدمج بين الميزات البصرية والنصية. ويُستخدم التعلم التمييزي (Contrastive learning) في كلا المرحلتين. ويحقق النهج المقترح أداءً من الدرجة الأولى (state-of-the-art) في استرجاع الصور المشروط ضمن مجموعة بيانات FashionIQ، وفي استرجاع الصور المركَّبة ضمن مجموعة بيانات CIRR الأحدث.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
image-retrieval-on-cirrCLIP4Cir (v2)
(Recall@5+Recall_subset@1)/2: 69.09
image-retrieval-on-fashion-iqCLIP4Cir (v2)
(Recall@10+Recall@50)/2: 50.03
image-retrieval-on-lascoCLIP4CIR
Recall@1 (%): 4.01

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاسترجاع المشروط والمركب للصور باستخدام ميزات CLIP المُربّاة جزئيًا ومركبة | الأوراق البحثية | HyperAI