تحسينات معنوية تُحقِّق فوائد تراكمية لاسترجاع الصور المُركَّبة بدون نموذج مُسبق
حصلت الاسترجاع الصوري المُركَّب من الصفر (ZS-CIR) على اهتمام متزايد في السنوات الأخيرة، حيث تركز على استرجاع صورة محددة بناءً على استعلام مكوَّن من صورة مرجعية ونص نسبي دون الحاجة إلى عينات تدريبية. بشكل خاص، يصف النص النسبي الفروقات بين الصورتين. تعتمد الطرق الشائعة في ZS-CIR على نماذج التحويل من الصورة إلى النص (I2T) لتحويل الصورة المطلوبة إلى وصف مفرد، ثم يتم دمج هذا الوصف مع النص النسبي باستخدام تقنيات دمج النصوص لتكوين نص مركَّب يستخدم في عملية الاسترجاع. ومع ذلك، تتجاهل هذه الطرق حقيقة أن ZS-CIR تتطلب أخذ بعين الاعتبار ليس فقط التشابه النهائي بين النص المركَّب والصور المسترجعة، بل أيضًا الزيادة الدلالية التي تحدث أثناء عملية التعديل المركَّبة. لمعالجة هذه القيود، تُقدِّم هذه الورقة طريقة لا تتطلب تدريبًا تُسمى "الزيادة الدلالية في التعديل" لـ ZS-CIR (SEIZE)، والتي تستند إلى الاستعلام المكوَّن من الصورة والنص لاسترجاع الصورة المستهدفة دون الحاجة إلى تدريب. أولاً، نستخدم نموذجًا مُدرَّبًا مسبقًا لتكوين وصف متنوع للصورة المرجعية، ثم نُشغِّل نماذج لغة كبيرة (LLMs) لإجراء استنتاجات تحليلية واسعة النطاق بناءً على هذه الوصفات والنص النسبي، بهدف تغطية الجوانب الدلالية المحتملة للصورة المستهدفة. ثم نصمم عملية بحث دلالية تعديلية لدمج الزيادة الدلالية الناتجة عن النص النسبي في عملية الاسترجاع. وبشكل محدد، نأخذ بعين الاعتبار بشكل شامل كلًا من الزيادة الدلالية النسبية والتشابه المطلق كمقياس نهائي للاسترجاع، والذي يُستخدم لاحقًا لاسترجاع الصورة المستهدفة في فضاء ميزات CLIP. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات عامة أن SEIZE المقترحة تحقق أداءً جديدًا على مستوى الحد الأقصى من الأداء (SOTA). وتم إتاحة الكود بشكل عام عبر الرابط التالي: https://github.com/yzy-bupt/SEIZE.