HyperAIHyperAI
منذ 11 أيام

ما تراه هو ما تقرأه؟ تحسين تقييم المطابقة بين النص والصورة

Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
ما تراه هو ما تقرأه؟ تحسين تقييم المطابقة بين النص والصورة
الملخص

تحديد تلقائي لتوافق النص والصورة المقابلة من حيث المعنى يُعد تحديًا كبيرًا بالنسبة للنماذج البصرية-اللغوية، وله تطبيقات في مهام إنشاء النص إلى الصورة والصورة إلى النص. في هذا العمل، ندرس طرقًا لتقييم التوافق التلقائي بين النصوص والصور. نبدأ بعرض SeeTRUE: مجموعة تقييم شاملة، تغطي عدة مجموعات بيانات من مهام إنشاء النص إلى الصورة والصورة إلى النص، مع تقييمات بشرية تحدد ما إذا كانت زوجية النص والصورة متوافقة من حيث المعنى. ثم نصف طريقتين تلقائيتين لتحديد التوافق: الأولى تعتمد على سلسلة من العمليات تعتمد على توليد الأسئلة ونماذج الإجابة على الأسئلة البصرية، والثانية تستخدم نهجًا تصنيفًا من النهاية إلى النهاية من خلال تدريب نماذج ما قبل التدريب متعددة الوسائط بشكل مُعدّل. وتفوق كلا الطريقتين النماذج السابقة في مهام مختلفة لتقييم التوافق بين النصوص والصور، مع تحسينات كبيرة في الحالات الصعبة التي تتضمن تركيبات معقدة أو صور غير طبيعية. وأخيرًا، نُظهر كيف يمكن لأساليبنا تحديد التناقضات المحددة بين الصورة والنص المعطى، وكيف يمكن استخدامها لإعادة ترتيب تلقائي للمرشحات في مهام إنشاء الصور من النصوص.

ما تراه هو ما تقرأه؟ تحسين تقييم المطابقة بين النص والصورة | أحدث الأوراق البحثية | HyperAI