DocFormer: نموذج تحويلي نهائياً للفهم المستند إلى الوثائق

نقدّم "DocFormer" — وهي بنية قائمة على المحولات متعددة الوسائط (multi-modal transformer) مُصممة لمهام فهم المستندات البصرية (Visual Document Understanding, VDU). تُعدّ مسألة VDU تحديًا كبيرًا، وتهدف إلى فهم المستندات بتنسيقاتها المتنوعة (مثل النماذج، الفواتير، وغيرها) وأحجامها المختلفة. علاوةً على ذلك، تم تدريب DocFormer بشكل غير مراقب باستخدام مهام مُصممة بعناية تشجع على التفاعل متعدد الوسائط. تعتمد DocFormer على ميزات النص والرؤية والمكان، وتحللها عبر طبقة انتباه ذاتي متعددة الوسائط مبتكرة. كما تُشارك DocFormer تمثيلات مكانية مُتعلّمة عبر الوسائط المختلفة، مما يُسهّل على النموذج ربط العناصر النصية بالرموز البصرية والعكس. تم تقييم DocFormer على أربع مجموعات بيانات مختلفة، كل منها تمتلك قواعد مقارنة قوية. وقد حققت DocFormer نتائج متفوقة على مستوى الحالة الحالية (state-of-the-art) في جميع هذه المجموعات، وفي بعض الأحيان تفوق نماذج أربع مرات أكبر حجمها (من حيث عدد المعاملات).