HyperAIHyperAI
منذ 11 أيام

المحاذاة قبل البحث: محاذاة صورة الإعلان مع النص للبحث المدعوم عبر الوسائط بدقة

Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu
المحاذاة قبل البحث: محاذاة صورة الإعلان مع النص للبحث المدعوم عبر الوسائط بدقة
الملخص

تُظهر عمليات البحث المُموَّل المتقاطعة (Cross-Modal Sponsored Search) إعلانات متعددة الوسائط (ads) عند بحث المستهلكين عن منتجات مطلوبة باستخدام استعلامات طبيعية باللغة في محركات البحث. وبما أن الإعلانات متعددة الوسائط توفر تفاصيل مكملة لتطابق الاستعلام مع الإعلان، فإن القدرة على محاذاة المعلومات الخاصة بالإعلانات في كل من الصور والنصوص تُعدّ أمرًا حاسمًا لتحقيق تطابق دقيق ومرن في البحث المُموَّل. ورغم أن الأبحاث التقليدية ركزت بشكل رئيسي على نمذجة العلاقات الضمنية بين الصور والنصوص لتطابق الاستعلام مع الإعلان، إلا أنها تجاهلت محاذاة المعلومات التفصيلية للمنتجات، ما أدى إلى أداء بحث غير مثالي. في هذه الدراسة، نقترح شبكة محاذاة بسيطة تُعَدّل بشكل صريح الأجزاء البصرية الدقيقة في صور الإعلانات إلى النصوص المقابلة لها، وذلك باستغلال اتساق هيكل التكرار المشترك بين فضاءات الرؤية واللغة دون الحاجة إلى بيانات تدريب مُصنَّفة مكلفة. علاوةً على ذلك، نقترح نموذجًا جديدًا للبحث المُموَّل المتقاطع، يُجري محاذاة الوسائط المتقاطعة وتطابق الاستعلام مع الإعلان في عمليتين منفصلتين. وبهذا، يتم مطابقة المدخلات متعددة الوسائط في نفس فضاء اللغة، مما يحقق أداءً متفوقًا باستخدام مجرد نصف كمية بيانات التدريب. ويتفوق نموذجنا على النماذج الرائدة في مجالها بنسبة 2.57٪ على مجموعة بيانات تجارية كبيرة. وبالإضافة إلى البحث المُموَّل، يمكن تطبيق طريقة محاذاةنا على مهام البحث المتقاطع العام. وقد درسنا مهمة استرجاع متقاطعة شائعة على مجموعة بيانات MSCOCO، حيث حققت نتائج تحسّن متسقة، ما يثبت قدرة طريقة البحث لدينا على التعميم. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/Pter61/AlignCMSS/

المحاذاة قبل البحث: محاذاة صورة الإعلان مع النص للبحث المدعوم عبر الوسائط بدقة | أحدث الأوراق البحثية | HyperAI