VisualMRC: فهم القراءة الآلية على صور المستندات

تركز الدراسات الحديثة في مجال فهم القراءة الآلية على الفهم على مستوى النص، لكنها لم تصل بعد إلى مستوى الفهم البشري للبنية البصرية والمحتوى للوثائق الواقعية. في هذه الدراسة، نقدّم مجموعة بيانات جديدة لفهم القراءة الآلية البصرية، تُسمى VisualMRC، حيث يتم، بالاعتماد على سؤال وصورة وثيقة، قراءة الآلة للنصوص المحتواة في الصورة وفهمها بهدف الإجابة على السؤال بلغة طبيعية. مقارنةً ب datasets الحالية لأسئلة وصور (VQA) التي تحتوي على نصوص داخل الصور، تركز VisualMRC بشكل أكبر على تطوير قدرات الفهم والتكوين اللغوي الطبيعي. وتشمل المجموعة أكثر من 30,000 زوجًا من السؤال والإجابة التوليدية، لـ أكثر من 10,000 صورة وثيقة مستمدة من مجالات متعددة من صفحات الويب. كما نقدّم نموذجًا جديدًا يُعدّ توسّعًا للنماذج الحالية من نوع التسلسل إلى التسلسل (sequence-to-sequence)، والتي تم تدريبها مسبقًا على مجموعات نصية ضخمة، بحيث تأخذ بعين الاعتبار البنية البصرية ومحتوى الوثائق. أظهرت التجارب باستخدام VisualMRC أن هذا النموذج تفوق على النماذج الأساسية من نوع التسلسل إلى التسلسل، وكذلك على نموذج VQA من أحدث التقنيات. ومع ذلك، لا تزال أداءه أقل من الأداء البشري في معظم مقاييس التقييم التلقائي. وسيسهم هذا المجموعة في تعزيز الأبحاث الموجهة إلى ربط فهم الرؤية بفهم اللغة.