HyperAIHyperAI

Command Palette

Search for a command to run...

ما تراه هو ما تقرأه؟ تحسين تقييم المطابقة بين النص والصورة

Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang Eran Ofek Idan Szpektor

الملخص

تحديد تلقائي لتوافق النص والصورة المقابلة من حيث المعنى يُعد تحديًا كبيرًا بالنسبة للنماذج البصرية-اللغوية، وله تطبيقات في مهام إنشاء النص إلى الصورة والصورة إلى النص. في هذا العمل، ندرس طرقًا لتقييم التوافق التلقائي بين النصوص والصور. نبدأ بعرض SeeTRUE: مجموعة تقييم شاملة، تغطي عدة مجموعات بيانات من مهام إنشاء النص إلى الصورة والصورة إلى النص، مع تقييمات بشرية تحدد ما إذا كانت زوجية النص والصورة متوافقة من حيث المعنى. ثم نصف طريقتين تلقائيتين لتحديد التوافق: الأولى تعتمد على سلسلة من العمليات تعتمد على توليد الأسئلة ونماذج الإجابة على الأسئلة البصرية، والثانية تستخدم نهجًا تصنيفًا من النهاية إلى النهاية من خلال تدريب نماذج ما قبل التدريب متعددة الوسائط بشكل مُعدّل. وتفوق كلا الطريقتين النماذج السابقة في مهام مختلفة لتقييم التوافق بين النصوص والصور، مع تحسينات كبيرة في الحالات الصعبة التي تتضمن تركيبات معقدة أو صور غير طبيعية. وأخيرًا، نُظهر كيف يمكن لأساليبنا تحديد التناقضات المحددة بين الصورة والنص المعطى، وكيف يمكن استخدامها لإعادة ترتيب تلقائي للمرشحات في مهام إنشاء الصور من النصوص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp