تطابق الصورة والنص
تطابق الصورة والنص هو جزء فرعي من استرجاع متعدد الوسائط (CMR) يهدف إلى إنشاء علاقات بين الصور ووصفها النصي المقابل. الهدف منه هو استرجاع الصور ذات الصلة بناءً على استعلام نصي، أو استرجاع الوصف النصي المقابل بناءً على استعلام صوري. يعتبر هذا المهمة صعبًا بسبب الفجوة التباينية بين تمثيل بيانات الصورة والبيانات النصية، وهو مطبق على نطاق واسع في سيناريوهات البحث عن الصور بناءً على المحتوى، وإجابة الأسئلة البصرية، والملخصات متعددة الوسائط.