HyperAIHyperAI

Command Palette

Search for a command to run...

البحث عن الصور باستخدام التغذية الراجعة النصية من خلال تعلّم الانتباه البصري اللغوي

Loris Bazzani Shaogang Gong Yanbei Chen

الملخص

يُعد البحث عن الصور باستخدام التغذية الراجعة النصية له تأثيرات واعدة في تطبيقات عالمية متعددة، مثل التجارة الإلكترونية والبحث على الإنترنت. وبما أن الصورة المرجعية والتعليقات النصية من المستخدم مُعطاة، فإن الهدف هو استرجاع صور تشبه الصورة المدخلة، ولكنها أيضًا تقوم بتعديل جوانب معينة وفقًا للنص المقدم. يُعد هذا التحدي صعبًا لأنه يتطلب فهمًا متكاملًا للصورة والنص معًا. في هذه الدراسة، نتناول هذه المهمة من خلال إطار عمل جديد يُسمى التعلم الانتباه البصري اللغوي (VAL). وبشكل خاص، نقترح تحويلًا مركبًا (composite transformer) يمكن دمجه بسلاسة في شبكة عصبية متعددة الطبقات (CNN) لحفظ وتحويل سمات مرئية بشكل انتقائي، مع الاعتماد على الدلالات اللغوية. وبإدراج عدة تحويلات مركبة في عمق مختلف، يصبح إطار VAL قادرًا على تجميع المعلومات البصرية اللغوية متعددة الحُدود، مما يؤدي إلى تمثيل تعبيري فعّال يُعزز من كفاءة البحث عن الصور. أجرينا تقييمًا شاملاً على ثلاث مجموعات بيانات: Fashion200k وShoes وFashionIQ. وأظهرت التجارب الواسعة تفوق نموذجنا على الأساليب الحالية في جميع مجموعات البيانات، مما يدل على تفوق متسق في التعامل مع أنواع مختلفة من التغذية الراجعة النصية، بما في ذلك الوصفات المميزة والنصوص الطبيعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
البحث عن الصور باستخدام التغذية الراجعة النصية من خلال تعلّم الانتباه البصري اللغوي | مستندات | HyperAI