Command Palette
Search for a command to run...
نحو نماذج VQA قادرة على القراءة
نحو نماذج VQA قادرة على القراءة
Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach
الملخص
أظهرت الدراسات أن فئة الأسئلة المطروحة بشكل كبير من قبل المستخدمين ذوي الإعاقة البصرية حول صور محيطهم تتعلق بقراءة النصوص في الصورة. ولكن نماذج الاستفسار المرئي واللغوي (VQA) الحالية لا تستطيع القراءة! يخطو بحثنا خطوة أولى نحو معالجة هذه المشكلة. أولاً، نقدم مجموعة بيانات جديدة تسمى "TextVQA" لتسهيل التقدم في هذا الموضوع الهام. تحتوي المجموعات البيانات الموجودة إما على نسبة صغيرة من الأسئلة المتعلقة بالنصوص (مثل مجموعة بيانات VQA) أو تكون صغيرة جدًا (مثل مجموعة بيانات VizWiz). تحتوي TextVQA على 45,336 سؤالًا في 28,408 صورة تتطلب استدلالًا عن النصوص للإجابة عليها. ثانيًا، نقدم هندسة نموذج جديدة تقرأ النصوص في الصورة، وتستدل بشأنها في سياق الصورة والسؤال، وتنبئ بالإجابة التي قد تكون استنتاجًا يستند إلى النصوص والصورة أو تتكون من السلاسل الموجودة في الصورة. ولذلك، نطلق على نهجنا اسم "انظر، اقرأ، استدل وأجب" (Look, Read, Reason & Answer - LoRRA). نبين أن LoRRA تتفوق على النماذج الحالية الأكثر تقدمًا في مجال VQA في مجموعتنا البيانات TextVQA. وجدنا أن الفجوة بين أداء البشر وأداء الآلات أكبر بكثير في TextVQA منها في VQA 2.0، مما يشير إلى أن TextVQA مناسب جيدًا لتقييم التقدم في اتجاهات مكملة لمجال VQA 2.0.