HyperAIHyperAI

Command Palette

Search for a command to run...

جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

تعد المشاكل التي تقع على تقاطع الرؤية واللغة ذات أهمية كبيرة، سواء كأسئلة بحثية صعبة أو للكم الكبير من التطبيقات التي تتيحها. ومع ذلك، فإن الهيكل الداخلي لعالمنا والتحيز في لغتنا يميلان إلى أن يكونا إشارة أبسط للتعلم مقارنة بالوسائط البصرية، مما يؤدي إلى نماذج تتجاهل المعلومات البصرية وتسبب في وجود تقدير مبالغ فيه لقدراتها.نقترح التصدي لهذه الأولويات اللغوية في مهمة الإجابة على الأسئلة البصرية (VQA) وجعل الرؤية (الحرف V في VQA) ذات أهمية! تحديداً، نوازن مجموعة البيانات الشهيرة VQA جمع صور مكملة بحيث يتم ربط كل سؤال في مجموعتنا الموزونة ليس بصورة واحدة فحسب، بل بدلاً من ذلك بزوج من الصور المتشابهة التي تؤدي إلى إجابتين مختلفتين على السؤال نفسه. تم تصميم مجموعتنا بحيث تكون أكثر توازناً من مجموعة بيانات VQA الأصلية ولديها تقريباً ضعف عدد أزواج الصور-الأسئلة. يمكن الوصول إلى مجموعتنا الموزونة الكاملة على موقع www.visualqa.org كجزء من النسخة الثانية من مجموعة بيانات ومهمة الإجابة على الأسئلة البصرية (VQA v2.0).نقوم أيضاً بتقييم عدد من أفضل نماذج VQA الحالية على مجموعتنا الموزونة. أدت جميع النماذج بشكل سيء بكثير على مجموعتنا الموزونة، مما يشير إلى أنها قد تعلمت بالفعل استغلال الأولويات اللغوية. توفر هذه النتيجة أول دليل تجريبي واضح لما يبدو أنه شعور نوعي بين المحترفين.أخيراً، يتيح بروتوكول جمع البيانات الخاص بنا لاكتشاف الصور المكملة لنا تطوير نموذج قابل للتفسير جديد، والذي بالإضافة إلى تقديم إجابة لأي زوج (صورة، سؤال)، يقدم أيضاً شرحًا يستند إلى مثال مضاد. تحديدًا، يقوم بتحديد صورة مشابهة للصورة الأصلية ولكنه يعتقد أنها لديها إجابة مختلفة لنفس السؤال. يمكن لهذا الأمر المساعدة في بناء الثقة بين المستخدمين وأجهزة الكمبيوتر الخاصة بهم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية | مستندات | HyperAI