HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال البصري: مهمة جديدة لفهم الصور بدقة عالية

Ning Xie; Farley Lai; Derek Doran; Asim Kadav

الملخص

الملفات المعروفة للبيانات المجمعة للاستدلال البصري، مثل بيانات الإجابة على الأسئلة البصرية (VQA)، غالباً ما تعاني من التحيزات المرتبطة بتوزيع الأسئلة أو الصور أو الإجابات. يعالج مجموعة البيانات المقترحة حديثاً CLEVR هذه القيود ويحتاج إلى استدلال دقيق، ولكن المجموعة صناعية وتحتوي على أشياء متشابهة وأبنية جمل متكررة عبر المجموعة.في هذا البحث، نقدم مهمة استدلال جديدة تسمى الاستدلال البصري (VE) - وهي تتكون من أزواج الصورة-الجملة حيث يتم تعريف الفرضية بوساطة صورة بدلاً من جملة بلغة طبيعية كما هو الحال في مهام الاستدلال النصي التقليدية. الهدف من نموذج VE المدرب هو التنبؤ بما إذا كانت الصورة تحتوي على معنى الجملة بشكل انتقالي. لتحقيق هذه المهمة، قمنا ببناء مجموعة بيانات SNLI-VE بناءً على مجمع الاستدلال اللغوي الطبيعي لستانفورد وقاعدة بيانات Flickr30k. قمنا بتقييم العديد من النماذج الأساسية القائمة لـ VQA وبناء نظام يُدعى الاستدلال البصري القابل للتفسير (EVE) لمعالجة مهمة VE. يصل نظام EVE إلى دقة تصل إلى 71٪ ويتفوق على عدة نماذج أخرى قائمة على VQA تعتبر من أفضل ما تم إنجازه في هذا المجال. وأخيراً، نوضح قابلية تفسير EVE من خلال تصورات الانتباه المتعدد الوسائط. يمكن الوصول إلى مجموعة بيانات SNLI-VE علنيًا عبر الرابط: https://github.com/necla-ml/SNLI-VE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp