HyperAIHyperAI

Command Palette

Search for a command to run...

CaLa: التعلم بالارتباط المكمل لتعزيز استرجاع الصور المركبة

Xintong Jiang Yaxiong Wang Mengjian Li Yujiao Wu Bingwen Hu Xueming Qian

الملخص

استرجاع الصور المركبة (CIR) يشمل البحث عن صور مستهدفة استنادًا إلى زوج صورة-نص كاستعلام. بينما تُعامل الطرق الحالية هذه المهمة كمشكلة مطابقة بين الاستعلام والصورة المستهدفة، نحن نرى أن الزيجات في CIR تحتوي على ارتباطات إضافية بخلاف العلاقة الأساسية. في ورقتنا البحثية، نحدد علاقتين جديدتين ضمن الزيجات، ونُعامل كل زوج كعقدة في رسم بياني. أولاً، نُقدّم مفهوم توجيه الصورة عبر النص، حيث يُستخدم النص المرتبط بالاستعلام كجسر بين الصورة المرتّبة والصورة المستهدفة. ونُقترح آلية انتباه متقاطع تعتمد على حدّ (hinge-based) لدمج هذه العلاقة في عملية التعلّم الشبكي. ثانيًا، نستكشف التفكير المكمل في النص، مع اعتبار CIR شكلاً من أشكال استرجاع الوسائط المتعددة، حيث تُستخدم صورتان معًا لتفسير نص مكمل. ولدمج هذه الرؤى بشكل فعّال، نصمم مُركّبًا يعتمد على انتباه مزدوج. وبدمج هذه الارتباطات المكملة مع العلاقة الصريحة بين زوج الاستعلام والصورة المستهدفة، نُنشئ مجموعة شاملة من القيود لاسترجاع الصور المركبة. يستند إطار عملنا، CaLa (تعلّم الارتباطات المكملة لتعزيز استرجاع الصور المركبة)، إلى هذه الرؤى. وقد أجرينا تقييمًا لـ CaLa على مجموعتي بيانات CIRR وFashionIQ باستخدام عدة بنى أساسية، مما يُظهر تفوقه في مهمة استرجاع الصور المركبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp