HyperAIHyperAI

Command Palette

Search for a command to run...

دبلن -- فهم المستندات بواسطة شبكة اللغة والصورة

Kriti Aggarwal Aditi Khandelwal Kumar Tanmay Owais Mohammed Khan Qiang Liu Monojit Choudhury Hardik Hansrajbhai Chauhan Subhojit Som Vishrav Chaudhary Saurabh Tiwary

الملخص

إن فهم المستندات البصرية هو مهمة معقدة تتضمن تحليل النصوص والعناصر البصرية في صور المستندات. غالبًا ما تعتمد النماذج الحالية على هندسة الميزات اليدوية أو خطوط أنابيب مخصصة للمجال، مما يحد من قدرتها على التعميم عبر أنواع مختلفة من المستندات واللغات. في هذه الورقة، نقترح نموذج DUBLIN، الذي تم تدريبه مسبقًا على صفحات الويب باستخدام ثلاثة أهداف جديدة: مهمة توليد النص المُسَمَّى في المستند، ومهام مربع الحدود، وتوليد إجابات الأسئلة المرئية، والتي تستفيد من المعلومات المكانية والدلالية الموجودة في صور المستندات. يحقق نموذجنا نتائج تنافسية أو تُعدّ من أفضل النتائج الحالية على عدة معايير، مثل قراءة الفهم الهيكلي القائمة على الويب (WebSRC)، وفهم الأسئلة البصرية في المستندات (DocVQA)، واستخراج المعلومات الأساسية، وفهم المخططات، وفهم الجداول من خلال الأسئلة. وبشكل خاص، نُظهر أن DUBLIN هو أول نموذج يعتمد على البكسل يحقق مقياس دقة الإجابة الدقيقة (EM) بنسبة 77.75% ومقياس F1 بنسبة 84.25% على مجموعة بيانات WebSRC. كما نُظهر أن نموذجنا يتفوق على أحدث النماذج المُتقدمة القائمة على البكسل في مجموعات بيانات DocVQA وInfographicsVQA وOCR-VQA وAI2D بنسبة 4.6% و6.5% و2.6% و21% على التوالي. كما نحقق أداءً تنافسيًا على تصنيف المستندات في مجموعة RVL-CDIP. علاوةً على ذلك، قمنا بإنشاء قواعد معيارية جديدة لبيانات تعتمد على النص من خلال تحويلها إلى صور مستندات، بهدف تعزيز البحث في هذا الاتجاه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp