HyperAIHyperAI
منذ 17 أيام

DocFormerv2: الميزات المحلية لفهم المستندات

Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha
DocFormerv2: الميزات المحلية لفهم المستندات
الملخص

نُقدّم DocFormerv2، وهو نموذج متعدد الوسائط من نوع المحول (Transformer) مُصمم لفهم الوثائق البصرية (Visual Document Understanding - VDU). يشمل مجال VDU فهم الوثائق (بeyond مجرد توقعات التعرف البصري على النصوص - OCR)، مثل استخراج المعلومات من النماذج (Forms)، أو إجابة الأسئلة حول الوثائق (VQA للوثائق)، بالإضافة إلى مهام أخرى. يُعد مجال VDU تحديًا كبيرًا لأنه يتطلب من النموذج تفسير تفاعلات متعددة الوسائط (بصرية، لغوية، مكانيّة) لاتخاذ تنبؤ دقيق. نهجنا، المسمى DocFormerv2، هو نموذج محول من نوع المشفر-المحول (encoder-decoder) يعتمد كمدخلات على ميزات بصرية، لغوية، ومكانية. تم تدريب DocFormerv2 مسبقًا باستخدام مهام غير مراقبة، تم تطبيقها بشكل غير متماثل، حيث تم اقتراح مهام وثائقية جديدة (اثنتين) على الجزء المشفر (encoder) وواحدة فقط على الجزء المُولِّد (auto-regressive decoder). تم تصميم هذه المهام غير المراقبة بعناية لضمان تشجيع التزامن المحلي بين الميزات في الوسائط المختلفة. عند تقييم DocFormerv2 على تسع مجموعات بيانات، أظهر أداءً يفوق النماذج القوية السابقة، مثل: TabFact (بفارق 4.3%)، InfoVQA (بفارق 1.4%)، وFUNSD (بفارق 1%)، مما يُثبت تفوقه على النماذج الحالية. بالإضافة إلى ذلك، لاختبار قدرته على التعميم، أُجريت تجارب على ثلاث مهام VQA تتضمن نصوصًا مدمجة في المشاهد (scene-text)، حيث تفوق DocFormerv2 على النماذج المماثلة في الحجم، بل وتقدّم أداءً أفضل من نماذج كبيرة جدًا مثل GIT2 وPaLi وFlamingo في بعض المهام. كما أظهرت التحليلات الواسعة (ablations) أن تدريبه المسبق ساهم في تمكين DocFormerv2 من فهم الوسائط المتعددة بشكل أفضل من النماذج السابقة في مجال VDU.

DocFormerv2: الميزات المحلية لفهم المستندات | أحدث الأوراق البحثية | HyperAI