HyperAIHyperAI
منذ 2 أشهر

التدريب الفعّال باستخدام اللغة فقط لاسترجاع الصور المركبة بدون تعلم مسبق

Geonmo Gu; Sanghyuk Chun; Wonjae Kim; Yoohoon Kang; Sangdoo Yun
التدريب الفعّال باستخدام اللغة فقط لاسترجاع الصور المركبة بدون تعلم مسبق
الملخص

مهمة استرجاع الصور المركبة (CIR) تأخذ استعلامًا مركبًا يتكون من صورة ونص، بهدف البحث عن الصور ذات الصلة بكلا الشرطين. تتطلب النهج التقليدية لـ CIR مجموعة بيانات تدريبية تتكون من ثلاثيات من صورة الاستعلام، نص الاستعلام، وصورة الهدف، وهي مكلفة للغاية للجمع. قد عملت عدة دراسات حديثة على نموذج CIR بدون رؤية سابقة (ZS-CIR) لحل هذه المشكلة دون استخدام الثلاثيات المجمعة مسبقًا. ومع ذلك، تظهر الأساليب الحالية لـ ZS-CIR قابلية محدودة للتوسع والعمومية بسبب نقص التنوع في النصوص الإدخال خلال التدريب. نقترح إطارًا جديدًا لـ CIR يستخدم اللغة فقط في تدريبه. يمكن تدريب LinCIR (التدريب باستخدام اللغة فقط لـ CIR) فقط باستخدام مجموعات بيانات النص بواسطة نوع جديد من الرقابة الذاتية يُسمى الرسم البياني الذاتي القناعي (SMP). نقوم بتحويل غرسان النص الكامنة إلى فضاء غرسان العلامات ثم بناء نص جديد بتبديل علامات الكلمات الرئيسية في النص الأصلي. بعد ذلك، نجعل النص الجديد والأصلي لهما نفس المتجه الكامن. بهذه الاستراتيجية البسيطة، يكون LinCIR فعالاً بشكل مدهش وكبير؛ حيث يتم تدريب LinCIR مع العمود الفقري CLIP ViT-G في 48 دقيقة ويظهر أفضل أداء ZS-CIR على أربع مقاييس مختلفة لـ CIR هي: CIRCO وGeneCIS وFashionIQ وCIRR، وحتى يتفوق على الطريقة الخاضعة للرقابة في FashionIQ. يمكن الوصول إلى الكود عبر الرابط: https://github.com/navervision/lincir