HyperAI

Image Text Matching

تطابق الصورة والنص هو جزء فرعي من استرجاع متعدد الوسائط (CMR) يهدف إلى إنشاء علاقات بين الصور ووصفها النصي المقابل. الهدف منه هو استرجاع الصور ذات الصلة بناءً على استعلام نصي، أو استرجاع الوصف النصي المقابل بناءً على استعلام صوري. يعتبر هذا المهمة صعبًا بسبب الفجوة التباينية بين تمثيل بيانات الصورة والبيانات النصية، وهو مطبق على نطاق واسع في سيناريوهات البحث عن الصور بناءً على المحتوى، وإجابة الأسئلة البصرية، والملخصات متعددة الوسائط.