التدريب المسبق كما في الاستدلال: تحسين التuning المقنّع لاسترجاع الصور المركبة بدون إشراف

استرجاع الصور المركبة بدون تدريب (ZS-CIR)، وهو عملية تستند إلى تعديل نصي وصورة مرجعية كاستفسار لاسترجاع صورة هدف دون الحاجة إلى تسمية ثلاثية، قد حظي باهتمام متزايد في مجال استخراج البيانات. تعتمد الأبحاث الحالية في ZS-CIR بشكل أساسي على قدرة النماذج اللغوية-البصرية المدربة مسبقًا على التعميم، مثل نموذج CLIP. ومع ذلك، هناك اختلافات كبيرة بين النماذج اللغوية-البصرية المدربة مسبقًا ومهمة CIR، حيث تركز النماذج اللغوية-البصرية على تعلم التشابهات بينما يهدف CIR إلى تعلم التعديلات في الصورة التي يتم إرشادها بالنص.في هذا البحث، نقدم نهجًا جديدًا للضبط المقنع بدون تسمية ومدرب مسبقًا، مما يقلل الفجوة بين النموذج البصري-اللغوي المدرب مسبقًا والمهمة اللاحقة ZS-CIR. أولاً، لتخفيض هذه الفجوة، نعيد صياغة التعلم التبايني للنموذج البصري-اللغوي كمهمة ZS-CIR، حيث نقوم بتغطية بقع الصورة الإدخالية عشوائيًا لإنشاء ثلاثي $\langle$صورة مقنعة، نص، صورة$\rangle$ من زوج صورة-نص. ثانياً، نقترح طريقة ضبط مقنعة مدربة مسبقًا بسيطة ولكن جديدة، والتي تستخدم النص والصورة المقنة لتعلم التعديلات في الصورة الأصلية. بفضل هذا التصميم البسيط، يمكن للضبط المقنع المقترح أن يتعلم التقاط التعديلات الدقيقة التي يتم إرشادها بالنص بشكل أفضل.تظهر النتائج التجريبية الواسعة الأفضلية الملحوظة لنهجنا على النماذج الأساسية في أربع مجموعات بيانات ZS-CIR، وهي FashionIQ وCIRR وCIRCO وGeneCIS. رموز البرامج الخاصة بنا متاحة على الرابط: https://github.com/Chen-Junyang-cn/PLI