إطار تدريب موحد للفهم المستند

تُعدّ ذكاء المستندات (Document Intelligence) أداة تُ automate استخراج المعلومات من المستندات وتدعم العديد من التطبيقات التجارية. وقد أوجدت الأساليب الحديثة للتعلم الذاتي على مجموعات بيانات واسعة من المستندات غير المُعلَّمة فرصًا واعدة لتقليل جهود التصنيف من خلال تدريب النماذج باستخدام أهداف تعلُّم ذاتي. ومع ذلك، لا تزال معظم أساليب التدريب المسبق للمستندات الحالية تُهيمن عليها اللغة. نقدّم UDoc، وهي إطار جديد موحد للتدريب المسبق لفهم المستندات. صُمّم UDoc لدعم معظم مهام فهم المستندات، وتمديد معمّل Transformer ليقبل مُدمجات متعددة الوسائط كمدخلات. يتكوّن كل عنصر مدخل من كلمات وسمات بصرية مستمدة من منطقة معنوية في صورة المستند المدخلة. يتميّز UDoc بكونه يتعلم تمثيلًا عامًا من خلال الاستفادة من ثلاث خسائر ذاتية التعلُّم، مما يشجّع التمثيل على نمذجة الجمل، وفهم التشابهات، ومحاذاة الوسائط. وقد أظهر التحليل التجريبي الواسع أن عملية التدريب المسبق تتعلم تمثيلات مشتركة أفضل، ما يؤدي إلى تحسين الأداء في المهام اللاحقة.