HyperAIHyperAI
منذ 18 أيام

البحث عن الصور باستخدام التغذية الراجعة النصية من خلال تعلّم الانتباه البصري اللغوي

{ Loris Bazzani, Shaogang Gong, Yanbei Chen}
البحث عن الصور باستخدام التغذية الراجعة النصية من خلال تعلّم الانتباه البصري اللغوي
الملخص

يُعد البحث عن الصور باستخدام التغذية الراجعة النصية له تأثيرات واعدة في تطبيقات عالمية متعددة، مثل التجارة الإلكترونية والبحث على الإنترنت. وبما أن الصورة المرجعية والتعليقات النصية من المستخدم مُعطاة، فإن الهدف هو استرجاع صور تشبه الصورة المدخلة، ولكنها أيضًا تقوم بتعديل جوانب معينة وفقًا للنص المقدم. يُعد هذا التحدي صعبًا لأنه يتطلب فهمًا متكاملًا للصورة والنص معًا. في هذه الدراسة، نتناول هذه المهمة من خلال إطار عمل جديد يُسمى التعلم الانتباه البصري اللغوي (VAL). وبشكل خاص، نقترح تحويلًا مركبًا (composite transformer) يمكن دمجه بسلاسة في شبكة عصبية متعددة الطبقات (CNN) لحفظ وتحويل سمات مرئية بشكل انتقائي، مع الاعتماد على الدلالات اللغوية. وبإدراج عدة تحويلات مركبة في عمق مختلف، يصبح إطار VAL قادرًا على تجميع المعلومات البصرية اللغوية متعددة الحُدود، مما يؤدي إلى تمثيل تعبيري فعّال يُعزز من كفاءة البحث عن الصور. أجرينا تقييمًا شاملاً على ثلاث مجموعات بيانات: Fashion200k وShoes وFashionIQ. وأظهرت التجارب الواسعة تفوق نموذجنا على الأساليب الحالية في جميع مجموعات البيانات، مما يدل على تفوق متسق في التعامل مع أنواع مختلفة من التغذية الراجعة النصية، بما في ذلك الوصفات المميزة والنصوص الطبيعية.