استرجاع صور فعّال مُشَرَّط ومُركَّب يدمج ميزات قائمة على CLIP

تمديد أنظمة الاسترجاع القائمة على المحتوى (CBIR) من خلال الاسترجاع المُشَرَّط والمُركَّب يُعدّ تطويرًا مهمًا يُدمج صورة طلب مع نص إضافي يعبّر عن نية المستخدم، ويصف طلبات إضافية فيما يتعلق بالمحتوى البصري للصورة المُقدَّمة. يُعد هذا النوع من البحث مثيرًا للاهتمام في تطبيقات التجارة الإلكترونية، مثل تطوير عمليات بحث متعددة الوسائط تفاعلية ومحادثات ذكية (Chatbots). في هذا العرض التوضيحي، نقدّم نظامًا تفاعليًا مبنيًا على شبكة مُجمِّعة (combiner network)، تم تدريبها باستخدام التعلم التبايني (contrastive learning)، والتي تدمج بين السمات البصرية والنصية المستخلصة من شبكة OpenAI CLIP، بهدف معالجة مهام الاسترجاع المشروط (conditioned CBIR). يمكن استخدام هذا النظام لتحسين محركات بحث متاجر التجزئة الإلكترونية. على سبيل المثال، في مجال الموضة، يمكّن المستخدمين من البحث عن فساتين وقمصان وقمصان قصيرة الأكمام باستخدام صورة مُقدّمة كمرجع، مع التعبير عن بعض الفروقات البصرية المتعلقة بمحتواها، مثل طلب تغيير اللون أو النمط أو الشكل. تُظهر الشبكة المقترحة أداءً من الطراز الأول على مجموعة بيانات FashionIQ وعلى مجموعة بيانات CIRR الأحدث، مما يُظهر تطبيقها الفعّال في مجال الموضة بالنسبة لمهام الاسترجاع المشروط، وكذلك قابليتها للتطبيق على محتوى عام أكثر، نظرًا لطبيعة المهمة العامة للاسترجاع المركَّب (composed image retrieval).