HyperAIHyperAI

Command Palette

Search for a command to run...

VisualMRC: فهم القراءة الآلية على صور المستندات

Ryota Tanaka Kyosuke Nishida Sen Yoshida

الملخص

تركز الدراسات الحديثة في مجال فهم القراءة الآلية على الفهم على مستوى النص، لكنها لم تصل بعد إلى مستوى الفهم البشري للبنية البصرية والمحتوى للوثائق الواقعية. في هذه الدراسة، نقدّم مجموعة بيانات جديدة لفهم القراءة الآلية البصرية، تُسمى VisualMRC، حيث يتم، بالاعتماد على سؤال وصورة وثيقة، قراءة الآلة للنصوص المحتواة في الصورة وفهمها بهدف الإجابة على السؤال بلغة طبيعية. مقارنةً ب datasets الحالية لأسئلة وصور (VQA) التي تحتوي على نصوص داخل الصور، تركز VisualMRC بشكل أكبر على تطوير قدرات الفهم والتكوين اللغوي الطبيعي. وتشمل المجموعة أكثر من 30,000 زوجًا من السؤال والإجابة التوليدية، لـ أكثر من 10,000 صورة وثيقة مستمدة من مجالات متعددة من صفحات الويب. كما نقدّم نموذجًا جديدًا يُعدّ توسّعًا للنماذج الحالية من نوع التسلسل إلى التسلسل (sequence-to-sequence)، والتي تم تدريبها مسبقًا على مجموعات نصية ضخمة، بحيث تأخذ بعين الاعتبار البنية البصرية ومحتوى الوثائق. أظهرت التجارب باستخدام VisualMRC أن هذا النموذج تفوق على النماذج الأساسية من نوع التسلسل إلى التسلسل، وكذلك على نموذج VQA من أحدث التقنيات. ومع ذلك، لا تزال أداءه أقل من الأداء البشري في معظم مقاييس التقييم التلقائي. وسيسهم هذا المجموعة في تعزيز الأبحاث الموجهة إلى ربط فهم الرؤية بفهم اللغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VisualMRC: فهم القراءة الآلية على صور المستندات | مستندات | HyperAI