HyperAIHyperAI
منذ 2 أشهر

iSEARLE: تحسين الانعكاس النصي لاسترجاع الصور المركبة بدون تعليم مسبق

Agnolucci, Lorenzo ; Baldrati, Alberto ; Bertini, Marco ; Del Bimbo, Alberto
iSEARLE: تحسين الانعكاس النصي لاسترجاع الصور المركبة بدون تعليم مسبق
الملخص

بالنظر إلى استعلام يتكون من صورة مرجعية وتعليق نسبي، فإن استرجاع الصور المركبة (CIR) يهدف إلى استرجاع صور الهدف التي تشبه بصريًا الصورة المرجعية مع دمج التغييرات المحددة في التعليق النسبي. تعوق الاعتماد على الطرق الإشرافية على مجموعات بيانات مصنفة يدويًا بشكل مكثف تطبيقها الواسع. في هذا العمل، نقدم مهمة جديدة تسمى الاسترجاع الصوري المركب بدون أمثلة (ZS-CIR)، والتي تعالج CIR دون الحاجة إلى مجموعة بيانات تدريبية مصنفة. نقترح نهجًا باسم iSEARLE (استرجاع الصور المركبة بدون أمثلة مع عكس النص) يشمل تحويل المعلومات البصرية للصورة المرجعية إلى رمز كلمة زائفة في فضاء تمثيل الكلمات في CLIP ودمجه بالتعليق النسبي. لتعزيز البحث حول ZS-CIR، نقدم مجموعة بيانات قياسية في مجال عام تُسمى CIRCO (استرجاع الصور المركبة لأغراض شائعة في السياق)، وهي أول مجموعة بيانات CIR حيث يتم تصنيف كل استعلام بحقائق أساسية متعددة وتوضيح تصنيفه الدلالي. توضح النتائج التجريبية أن iSEARLE حققت أداءً رائدًا على ثلاث مجموعات بيانات مختلفة لـ CIR -- FashionIQ، CIRR، والمجموعة المقترحة CIRCO -- بالإضافة إلى ضبطين تقييميين إضافيين وهما تحويل المجال وتركيب الأغراض. يمكن الوصول إلى المجموعة والرمز والموديل بشكل عام عبر الرابط: https://github.com/miccunifi/SEARLE.