الملخص

أظهرت الدراسات أن فئة الأسئلة المطروحة بشكل كبير من قبل المستخدمين ذوي الإعاقة البصرية حول صور محيطهم تتعلق بقراءة النصوص في الصورة. ولكن نماذج الاستفسار المرئي واللغوي (VQA) الحالية لا تستطيع القراءة! يخطو بحثنا خطوة أولى نحو معالجة هذه المشكلة. أولاً، نقدم مجموعة بيانات جديدة تسمى "TextVQA" لتسهيل التقدم في هذا الموضوع الهام. تحتوي المجموعات البيانات الموجودة إما على نسبة صغيرة من الأسئلة المتعلقة بالنصوص (مثل مجموعة بيانات VQA) أو تكون صغيرة جدًا (مثل مجموعة بيانات VizWiz). تحتوي TextVQA على 45,336 سؤالًا في 28,408 صورة تتطلب استدلالًا عن النصوص للإجابة عليها. ثانيًا، نقدم هندسة نموذج جديدة تقرأ النصوص في الصورة، وتستدل بشأنها في سياق الصورة والسؤال، وتنبئ بالإجابة التي قد تكون استنتاجًا يستند إلى النصوص والصورة أو تتكون من السلاسل الموجودة في الصورة. ولذلك، نطلق على نهجنا اسم "انظر، اقرأ، استدل وأجب" (Look, Read, Reason & Answer - LoRRA). نبين أن LoRRA تتفوق على النماذج الحالية الأكثر تقدمًا في مجال VQA في مجموعتنا البيانات TextVQA. وجدنا أن الفجوة بين أداء البشر وأداء الآلات أكبر بكثير في TextVQA منها في VQA 2.0، مما يشير إلى أن TextVQA مناسب جيدًا لتقييم التقدم في اتجاهات مكملة لمجال VQA 2.0.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

نحو نماذج VQA قادرة على القراءة

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نحو نماذج VQA قادرة على القراءة

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نحو نماذج VQA قادرة على القراءة

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters