ما تراه هو ما تقرأه؟ تحسين تقييم المطابقة بين النص والصورة

تحديد تلقائي لتوافق النص والصورة المقابلة من حيث المعنى يُعد تحديًا كبيرًا بالنسبة للنماذج البصرية-اللغوية، وله تطبيقات في مهام إنشاء النص إلى الصورة والصورة إلى النص. في هذا العمل، ندرس طرقًا لتقييم التوافق التلقائي بين النصوص والصور. نبدأ بعرض SeeTRUE: مجموعة تقييم شاملة، تغطي عدة مجموعات بيانات من مهام إنشاء النص إلى الصورة والصورة إلى النص، مع تقييمات بشرية تحدد ما إذا كانت زوجية النص والصورة متوافقة من حيث المعنى. ثم نصف طريقتين تلقائيتين لتحديد التوافق: الأولى تعتمد على سلسلة من العمليات تعتمد على توليد الأسئلة ونماذج الإجابة على الأسئلة البصرية، والثانية تستخدم نهجًا تصنيفًا من النهاية إلى النهاية من خلال تدريب نماذج ما قبل التدريب متعددة الوسائط بشكل مُعدّل. وتفوق كلا الطريقتين النماذج السابقة في مهام مختلفة لتقييم التوافق بين النصوص والصور، مع تحسينات كبيرة في الحالات الصعبة التي تتضمن تركيبات معقدة أو صور غير طبيعية. وأخيرًا، نُظهر كيف يمكن لأساليبنا تحديد التناقضات المحددة بين الصورة والنص المعطى، وكيف يمكن استخدامها لإعادة ترتيب تلقائي للمرشحات في مهام إنشاء الصور من النصوص.