HyperAIHyperAI
منذ 17 أيام

CaLa: التعلم بالارتباط المكمل لتعزيز استرجاع الصور المركبة

Xintong Jiang, Yaxiong Wang, Mengjian Li, Yujiao Wu, Bingwen Hu, Xueming Qian
CaLa: التعلم بالارتباط المكمل لتعزيز استرجاع الصور المركبة
الملخص

استرجاع الصور المركبة (CIR) يشمل البحث عن صور مستهدفة استنادًا إلى زوج صورة-نص كاستعلام. بينما تُعامل الطرق الحالية هذه المهمة كمشكلة مطابقة بين الاستعلام والصورة المستهدفة، نحن نرى أن الزيجات في CIR تحتوي على ارتباطات إضافية بخلاف العلاقة الأساسية. في ورقتنا البحثية، نحدد علاقتين جديدتين ضمن الزيجات، ونُعامل كل زوج كعقدة في رسم بياني. أولاً، نُقدّم مفهوم توجيه الصورة عبر النص، حيث يُستخدم النص المرتبط بالاستعلام كجسر بين الصورة المرتّبة والصورة المستهدفة. ونُقترح آلية انتباه متقاطع تعتمد على حدّ (hinge-based) لدمج هذه العلاقة في عملية التعلّم الشبكي. ثانيًا، نستكشف التفكير المكمل في النص، مع اعتبار CIR شكلاً من أشكال استرجاع الوسائط المتعددة، حيث تُستخدم صورتان معًا لتفسير نص مكمل. ولدمج هذه الرؤى بشكل فعّال، نصمم مُركّبًا يعتمد على انتباه مزدوج. وبدمج هذه الارتباطات المكملة مع العلاقة الصريحة بين زوج الاستعلام والصورة المستهدفة، نُنشئ مجموعة شاملة من القيود لاسترجاع الصور المركبة. يستند إطار عملنا، CaLa (تعلّم الارتباطات المكملة لتعزيز استرجاع الصور المركبة)، إلى هذه الرؤى. وقد أجرينا تقييمًا لـ CaLa على مجموعتي بيانات CIRR وFashionIQ باستخدام عدة بنى أساسية، مما يُظهر تفوقه في مهمة استرجاع الصور المركبة.

CaLa: التعلم بالارتباط المكمل لتعزيز استرجاع الصور المركبة | أحدث الأوراق البحثية | HyperAI