منذ 7 أشهر

الملخص

تعد المشاكل التي تقع على تقاطع الرؤية واللغة ذات أهمية كبيرة، سواء كأسئلة بحثية صعبة أو للكم الكبير من التطبيقات التي تتيحها. ومع ذلك، فإن الهيكل الداخلي لعالمنا والتحيز في لغتنا يميلان إلى أن يكونا إشارة أبسط للتعلم مقارنة بالوسائط البصرية، مما يؤدي إلى نماذج تتجاهل المعلومات البصرية وتسبب في وجود تقدير مبالغ فيه لقدراتها.نقترح التصدي لهذه الأولويات اللغوية في مهمة الإجابة على الأسئلة البصرية (VQA) وجعل الرؤية (الحرف V في VQA) ذات أهمية! تحديداً، نوازن مجموعة البيانات الشهيرة VQA جمع صور مكملة بحيث يتم ربط كل سؤال في مجموعتنا الموزونة ليس بصورة واحدة فحسب، بل بدلاً من ذلك بزوج من الصور المتشابهة التي تؤدي إلى إجابتين مختلفتين على السؤال نفسه. تم تصميم مجموعتنا بحيث تكون أكثر توازناً من مجموعة بيانات VQA الأصلية ولديها تقريباً ضعف عدد أزواج الصور-الأسئلة. يمكن الوصول إلى مجموعتنا الموزونة الكاملة على موقع www.visualqa.org كجزء من النسخة الثانية من مجموعة بيانات ومهمة الإجابة على الأسئلة البصرية (VQA v2.0).نقوم أيضاً بتقييم عدد من أفضل نماذج VQA الحالية على مجموعتنا الموزونة. أدت جميع النماذج بشكل سيء بكثير على مجموعتنا الموزونة، مما يشير إلى أنها قد تعلمت بالفعل استغلال الأولويات اللغوية. توفر هذه النتيجة أول دليل تجريبي واضح لما يبدو أنه شعور نوعي بين المحترفين.أخيراً، يتيح بروتوكول جمع البيانات الخاص بنا لاكتشاف الصور المكملة لنا تطوير نموذج قابل للتفسير جديد، والذي بالإضافة إلى تقديم إجابة لأي زوج (صورة، سؤال)، يقدم أيضاً شرحًا يستند إلى مثال مضاد. تحديدًا، يقوم بتحديد صورة مشابهة للصورة الأصلية ولكنه يعتقد أنها لديها إجابة مختلفة لنفس السؤال. يمكن لهذا الأمر المساعدة في بناء الثقة بين المستخدمين وأجهزة الكمبيوتر الخاصة بهم.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters