HyperAIHyperAI
منذ 2 أشهر

استرجاع الصور المركبة بدون تدريب مسبق باستخدام الانعكاس النصي

Baldrati, Alberto ; Agnolucci, Lorenzo ; Bertini, Marco ; Del Bimbo, Alberto
استرجاع الصور المركبة بدون تدريب مسبق باستخدام الانعكاس النصي
الملخص

استرجاع الصور المركبة (CIR) يهدف إلى استرجاع صورة الهدف بناءً على استعلام يتكون من صورة مرجعية وتعليق نسبي يصف الفرق بين الصورتين. تعيق الجهود والتكلفة العالية المطلوبة لتصنيف مجموعات البيانات استخدام الأساليب الحالية على نطاق واسع، حيث تعتمد هذه الأساليب على التعلم الإشرافي. في هذا البحث، نقترح مهمة جديدة تسمى استرجاع الصور المركبة بدون أمثلة سابقة (ZS-CIR)، والتي تهدف إلى معالجة CIR دون الحاجة إلى مجموعة بيانات تدريبية مصنفة. نهجنا، الذي أطلقنا عليه اسم SEARLE (استرجاع الصور المركبة بدون أمثلة سابقة باستخدام الانعكاس النصي)، يقوم بتحويل الخصائص البصرية للصورة المرجعية إلى رمز كلمة زائفة في فضاء تمثيل الكلمات في CLIP ويدمجه مع التعليق النسبي. لدعم الأبحاث حول ZS-CIR، نقدم مجموعة بيانات قياسية عامة تسمى استرجاع الصور المركبة للأجسام الشائعة في السياق (CIRCO)، وهي أول مجموعة بيانات لـ CIR تحتوي على العديد من الحقائق الأرضية لكل استعلام. أظهرت التجارب أن SEARLE يحقق أداءً أفضل من النماذج الأساسية في المجموعتين الرئيسيتين من البيانات المستخدمة في مهام CIR، وهما FashionIQ و CIRR، وكذلك في CIRCO المقترحة. يمكن الوصول إلى مجموعة البيانات والكود والنموذج بشكل عام عبر الرابط https://github.com/miccunifi/SEARLE.

استرجاع الصور المركبة بدون تدريب مسبق باستخدام الانعكاس النصي | أحدث الأوراق البحثية | HyperAI