منذ 17 أيام

دبلن -- فهم المستندات بواسطة شبكة اللغة والصورة

Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary

عرض تفاصيل الورقة البحثية

دبلن -- فهم المستندات بواسطة شبكة اللغة والصورة

الملخص

إن فهم المستندات البصرية هو مهمة معقدة تتضمن تحليل النصوص والعناصر البصرية في صور المستندات. غالبًا ما تعتمد النماذج الحالية على هندسة الميزات اليدوية أو خطوط أنابيب مخصصة للمجال، مما يحد من قدرتها على التعميم عبر أنواع مختلفة من المستندات واللغات. في هذه الورقة، نقترح نموذج DUBLIN، الذي تم تدريبه مسبقًا على صفحات الويب باستخدام ثلاثة أهداف جديدة: مهمة توليد النص المُسَمَّى في المستند، ومهام مربع الحدود، وتوليد إجابات الأسئلة المرئية، والتي تستفيد من المعلومات المكانية والدلالية الموجودة في صور المستندات. يحقق نموذجنا نتائج تنافسية أو تُعدّ من أفضل النتائج الحالية على عدة معايير، مثل قراءة الفهم الهيكلي القائمة على الويب (WebSRC)، وفهم الأسئلة البصرية في المستندات (DocVQA)، واستخراج المعلومات الأساسية، وفهم المخططات، وفهم الجداول من خلال الأسئلة. وبشكل خاص، نُظهر أن DUBLIN هو أول نموذج يعتمد على البكسل يحقق مقياس دقة الإجابة الدقيقة (EM) بنسبة 77.75% ومقياس F1 بنسبة 84.25% على مجموعة بيانات WebSRC. كما نُظهر أن نموذجنا يتفوق على أحدث النماذج المُتقدمة القائمة على البكسل في مجموعات بيانات DocVQA وInfographicsVQA وOCR-VQA وAI2D بنسبة 4.6% و6.5% و2.6% و21% على التوالي. كما نحقق أداءً تنافسيًا على تصنيف المستندات في مجموعة RVL-CDIP. علاوةً على ذلك، قمنا بإنشاء قواعد معيارية جديدة لبيانات تعتمد على النص من خلال تحويلها إلى صور مستندات، بهدف تعزيز البحث في هذا الاتجاه.