تحسين استرجاع الصور المركبة عبر التعلم التبايني بتوسيع الإيجابيات والسلبيات

مهمة استرجاع الصورة المركبة (CIR) تهدف إلى استرجاع الصور الهدف باستخدام استعلام مركب يتكون من صورة مرجعية ونص معدل. غالبًا ما تستفيد الأساليب المتقدمة من التعلم التبايني كهدف للتحسين، حيث يستفيد هذا النهج من الأمثلة الإيجابية والسلبية الكافية. ومع ذلك، فإن الثلاثي لـ CIR يترتب عليه تكاليف يدوية عالية للتصنيف، مما يؤدي إلى نقص في الأمثلة الإيجابية. بالإضافة إلى ذلك، تستخدم الأساليب الحالية غالبًا عينة سلبية داخل الدفعة (in-batch negative sampling)، مما يقلل من عدد الأمثلة السلبية المتاحة للنموذج. لمعالجة مشكلة نقص الإيجابيات، نقترح طريقة لتوليد البيانات عن طريق الاستفادة من نموذج لغوي كبير متعدد الوسائط لبناء ثلاثيات لـ CIR. ولإدخال المزيد من السلبيات أثناء التعديل الدقيق، قمنا بتصميم إطار عمل تعديل دقيق ذو مرحلتين لـ CIR، حيث يتم في المرحلة الثانية إدخال العديد من التمثيلات الثابتة للسلبيات لتحسين فضاء التمثيل بسرعة. يمكن ربط هذين التحسينين الفعّالين وإدماجهما بطريقة يمكن تركيبها وإزالتها بسهولة، بحيث يمكن تطبيقهما على النماذج الحالية لـ CIR دون تغيير هياكلها الأصلية. أظهرت التجارب الواسعة والتحليل الانحداري أن طرقنا توسع بشكل فعال الإيجابيات والسلبيات وتحقق أفضل النتائج على كل من مجموعتي بيانات FashionIQ وCIRR. بالإضافة إلى ذلك، تؤدي طرقنا أيضًا أداءً جيدًا في استرجاع الصور المركبة بدون أي تعليمات سابقة (zero-shot composed image retrieval)، مما يوفر حلًا جديدًا لـ CIR في السيناريوهات ذات الموارد المحدودة. تم إطلاق شفرتنا المصدر وبياناتنا على الرابط: https://github.com/BUAADreamer/SPN4CIR.