HyperAIHyperAI

Command Palette

Search for a command to run...

نحو نماذج VQA قادرة على القراءة

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

الملخص

أظهرت الدراسات أن فئة الأسئلة المطروحة بشكل كبير من قبل المستخدمين ذوي الإعاقة البصرية حول صور محيطهم تتعلق بقراءة النصوص في الصورة. ولكن نماذج الاستفسار المرئي واللغوي (VQA) الحالية لا تستطيع القراءة! يخطو بحثنا خطوة أولى نحو معالجة هذه المشكلة. أولاً، نقدم مجموعة بيانات جديدة تسمى "TextVQA" لتسهيل التقدم في هذا الموضوع الهام. تحتوي المجموعات البيانات الموجودة إما على نسبة صغيرة من الأسئلة المتعلقة بالنصوص (مثل مجموعة بيانات VQA) أو تكون صغيرة جدًا (مثل مجموعة بيانات VizWiz). تحتوي TextVQA على 45,336 سؤالًا في 28,408 صورة تتطلب استدلالًا عن النصوص للإجابة عليها. ثانيًا، نقدم هندسة نموذج جديدة تقرأ النصوص في الصورة، وتستدل بشأنها في سياق الصورة والسؤال، وتنبئ بالإجابة التي قد تكون استنتاجًا يستند إلى النصوص والصورة أو تتكون من السلاسل الموجودة في الصورة. ولذلك، نطلق على نهجنا اسم "انظر، اقرأ، استدل وأجب" (Look, Read, Reason & Answer - LoRRA). نبين أن LoRRA تتفوق على النماذج الحالية الأكثر تقدمًا في مجال VQA في مجموعتنا البيانات TextVQA. وجدنا أن الفجوة بين أداء البشر وأداء الآلات أكبر بكثير في TextVQA منها في VQA 2.0، مما يشير إلى أن TextVQA مناسب جيدًا لتقييم التقدم في اتجاهات مكملة لمجال VQA 2.0.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp