MagicLens: استرجاع الصور ذاتي التعلم مع تعليمات مفتوحة النهاية

استرجاع الصور، أي العثور على الصور المرغوبة بناءً على صورة مرجعية، يشمل بشكل جوهري نوايا بحث غنية متعددة الجوانب من الصعب التقاطها باستخدام مقاييس الصور وحدها. ومع ذلك، فإن الأعمال الحديثة تستفيد من تعليمات النص لتمكين المستخدمين من التعبير عن نوايا البحث الخاصة بهم بشكل أكثر حرية. ومع ذلك، فإن التركيز الرئيسي لهذه الأعمال ينصب على أزواج الصور التي تتشابه بصرياً و/أو يمكن وصفها بمجموعة صغيرة من العلاقات المحددة مسبقاً. الفرضية الأساسية لهذا البحث هي أن تعليمات النص يمكن أن تمكن من استرجاع صور ذات علاقات غنية تتجاوز التشابه البصري. لإظهار这一点,我们介绍了 MagicLens،这是一系列支持开放式指令的自监督图像检索模型。MagicLens 基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛的关系(例如,内部视图),我们可以通过基础模型合成指令来使这些隐含关系显式化。ترجمة النص إلى العربية مع الحفاظ على الأسلوب العلمي والتقني:استرجاع الصور، أي العثور على الصور المرغوبة بناءً على صورة مرجعية، يشمل بشكل جوهري نوايا بحث غنية متعددة الجوانب من الصعب التقاطها باستخدام مقاييس الصور وحدها. ومع ذلك، فإن الأعمال الحديثة تستفيد من تعليمات النص لتمكين المستخدمين من التعبير عن نوايا البحث الخاصة بهم بشكل أكثر حرية. ومع ذلك، فإن التركيز الرئيسي لهذه الأعمال ينصب على أزواج الصور التي تتشابه بصرياً و/أو يمكن وصفها بمجموعة صغيرة من العلاقات المحددة مسبقاً. الفرضية الأساسية لهذا البحث هي أن تعليمات النص يمكن أن تمكن من استرجاع صور ذات علاقات غنية تتجاوز التشابه البصري. لإظهار هذه الفرضية، نقدم MagicLens (ماجيك لينز)، وهو سلسلة من نماذج استرجاع الصور الذاتية الإشراف التي تدعم التعليمات المفتوحة. يتم بناء MagicLens على رؤية جديدة رئيسية وهي أن أزواج الصور التي تظهر طبيعياً على نفس الصفحات الويب تحتوي على مجموعة واسعة من العلاقات الضمنية (مثل "العرض الداخلي")، ويمكننا جعل هذه العلاقات واضحة عبر تركيب التعليمات باستخدام النماذج الأساسية. تم تدريب MagicLens على 36.7 مليون ثلاثي (صورة الاستعلام، التعليمات، صورة الهدف) تحتوي على علاقات دلالية غنية تم حفرها من الويب، حيث حقق MagicLens نتائج مشابهة أو أفضل مما سبق في ثمانية مقاييس مختلفة لمهام استرجاع الصور المختلفة، مع الحفاظ على كفاءة عالية للمعلمات باستخدام حجم نموذج أقل بكثير. كما أظهرت تحليلات إضافية للبشر على مجموعة بيانات غير مرئية تتكون من 1.4 مليون صورة تنوع النوايا البحثية التي يدعمها MagicLens (ماجيك لينز). الكود والنماذج متاحة للعامة في https://open-vision-language.github.io/MagicLens/.