HyperAIHyperAI
منذ 17 أيام

الاسترجاع المُوجَّه بالهدف للصور المركَّبة

Haokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie
الاسترجاع المُوجَّه بالهدف للصور المركَّبة
الملخص

استرجاع الصور المركبة (CIR) هو نموذج جديد ومرن لاسترجاع الصور، يمكنه استرجاع الصورة المستهدفة استجابةً لاستعلام متعدد الوسائط، بما في ذلك صورة مرجعية ونص تعديل مرتبط بها. وعلى الرغم من النجاح الملموس الذي حققته الجهود السابقة، إلا أنها تتجاهل نمذجة العلاقة المتعارضة بين الصورة المرجعية ونص التعديل لتحسين تكوين الاستعلام متعدد الوسائط، وكذلك نمذجة درجة التوافق التكيفية لتعزيز ترتيب الصور المرشحة التي قد تظهر مستويات مختلفة من التوافق مع الاستعلام المقدم. ولحل هاتين المشكلتين، نقترح في هذه الدراسة شبكة استرجاع صور مركبة موجهة بالهدف (TG-CIR). وتحديدًا، تقوم TG-CIR أولاً باستخراج ميزات عالمية ومحليّة موحّدة للصورة المرجعية/الصورة المستهدفة ونص التعديل باستخدام نموذج التدريب المسبق متعدد الوسائط (CLIP) كهيكل أساسي، حيث يتم إدخال تنظيم متعامد لتعزيز الاستقلالية بين ميزات السمات. ثم تقوم TG-CIR بتصميم وحدة تكوين استعلام متعدد الوسائط موجهة بعلاقة الهدف-الاستعلام، تتضمن فرعًا للتكوين بدون هدف (طالب) وفرعًا مبنيًا على الهدف (معلم)، حيث يتم إدخال علاقة الهدف-الاستعلام إلى فرع المعلم لتوجيه نمذجة العلاقة المتعارضة في فرع الطالب. وأخيرًا، بالإضافة إلى خسارة التصنيف التقليدية القائمة على الحزمة، تُدخل TG-CIR بشكل إضافي تنظيمًا موجهًا بدرجة تشابه الهدف القائم على الحزمة لتعزيز عملية التعلم القياسي. وأظهرت التجارب الواسعة على ثلاث مجموعات بيانات معيارية تفوق الطريقة المقترحة.

الاسترجاع المُوجَّه بالهدف للصور المركَّبة | أحدث الأوراق البحثية | HyperAI