HyperAIHyperAI

Command Palette

Search for a command to run...

الدلالات الجملية تفيد استرجاع الصور المركبة

Yang Bai¹ Xinxing Xu¹ Yong Liu¹ Salman Khan²,³ Fahad Khan² Wangmeng Zuo⁴ Rick Siow Mong Goh¹ Chun-Mei Feng¹∗

الملخص

استرجاع الصور المركبة (CIR) هو مهمة استرجاع صور محددة باستخدام استعلام يشمل صورة مرجعية وتعليقًا نسبيًا. تتبني معظم النماذج الحالية لـ CIR استراتيجية التكامل المتأخر لدمج الخصائص البصرية واللغوية. بالإضافة إلى ذلك، تم اقتراح عدة طرق لتوليد رمز كلمة وهمي من الصورة المرجعية، والذي يتم دمجه في التعليق النسبي للاستخدام في CIR. ومع ذلك، فإن هذه الطرق القائمة على الرموز الكلمات الوهمية لها حدود عندما تتضمن الصورة المستهدفة تغييرات معقدة على الصورة المرجعية، مثل إزالة الأشياء وتعديل الصفات. في هذا العمل، نثبت أن تعلم دافع مناسب على مستوى الجملة للتعليق النسبي (SPRC) كافٍ لتحقيق استرجاع فعال للصور المركبة. بدلاً من الاعتماد على الدوافع القائمة على الرموز الكلمات الوهمية، نقترح الاستفادة من النماذج المدربة مسبقًا للصورة-اللغة (V-L)، مثل BLIP-2، لتوليد دوافع على مستوى الجملة. عن طريق ربط الدافع المنضبط الذي تم تعلمه بالتعليق النسبي، يمكن استخدام النماذج الحالية لاسترجاع الصور القائمة على النص بسهولة لتحسين أداء CIR. علاوة على ذلك، نقدم خسارة التباين بين الصورة والنص وخسارة تناسق الدافع النصي لتعزيز تعلم الدوافع المناسبة على مستوى الجملة. تظهر التجارب أن الطريقة المقترحة لدينا تؤدي بشكل أفضل من أفضل الطرق الحالية لـ CIR في مجموعتي بيانات Fashion-IQ وCIRR. الكود المصدر والنموذج المدرب مسبقًا متاحان بشكل عام في https://github.com/chunmeifeng/SPRC


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدلالات الجملية تفيد استرجاع الصور المركبة | مستندات | HyperAI