HyperAIHyperAI
منذ 2 أشهر

الدلالات الجملية تفيد استرجاع الصور المركبة

Bai, Yang ; Xu, Xinxing ; Liu, Yong ; Khan, Salman ; Khan, Fahad ; Zuo, Wangmeng ; Goh, Rick Siow Mong ; Feng, Chun-Mei
الدلالات الجملية تفيد استرجاع الصور المركبة
الملخص

استرجاع الصور المركبة (CIR) هو مهمة استرجاع صور محددة باستخدام استعلام يشمل صورة مرجعية وتعليقًا نسبيًا. تتبني معظم النماذج الحالية لـ CIR استراتيجية التكامل المتأخر لدمج الخصائص البصرية واللغوية. بالإضافة إلى ذلك، تم اقتراح عدة طرق لتوليد رمز كلمة وهمي من الصورة المرجعية، والذي يتم دمجه في التعليق النسبي للاستخدام في CIR. ومع ذلك، فإن هذه الطرق القائمة على الرموز الكلمات الوهمية لها حدود عندما تتضمن الصورة المستهدفة تغييرات معقدة على الصورة المرجعية، مثل إزالة الأشياء وتعديل الصفات. في هذا العمل، نثبت أن تعلم دافع مناسب على مستوى الجملة للتعليق النسبي (SPRC) كافٍ لتحقيق استرجاع فعال للصور المركبة. بدلاً من الاعتماد على الدوافع القائمة على الرموز الكلمات الوهمية، نقترح الاستفادة من النماذج المدربة مسبقًا للصورة-اللغة (V-L)، مثل BLIP-2، لتوليد دوافع على مستوى الجملة. عن طريق ربط الدافع المنضبط الذي تم تعلمه بالتعليق النسبي، يمكن استخدام النماذج الحالية لاسترجاع الصور القائمة على النص بسهولة لتحسين أداء CIR. علاوة على ذلك، نقدم خسارة التباين بين الصورة والنص وخسارة تناسق الدافع النصي لتعزيز تعلم الدوافع المناسبة على مستوى الجملة. تظهر التجارب أن الطريقة المقترحة لدينا تؤدي بشكل أفضل من أفضل الطرق الحالية لـ CIR في مجموعتي بيانات Fashion-IQ وCIRR. الكود المصدر والنموذج المدرب مسبقًا متاحان بشكل عام في https://github.com/chunmeifeng/SPRC

الدلالات الجملية تفيد استرجاع الصور المركبة | أحدث الأوراق البحثية | HyperAI