GlobalDoc: إطار متعدد الوسائط بصري-لغوي للبحث والتصنيف في صور المستندات الواقعية

تقدّم فهم المستندات البصرية (VDU) بسرعة مع تطور النماذج اللغوية متعددة الوسائط القوية. ومع ذلك، تتطلب هذه النماذج عادةً كميات كبيرة من بيانات التدريب المسبقة للمستندات لتعلم التمثيلات المتوسطة، وغالبًا ما تعاني من انخفاض كبير في الأداء في البيئات الصناعية الحقيقية عبر الإنترنت. إحدى المشكلات الرئيسية هي اعتمادها الكبير على محركات OCR لاستخراج المعلومات المكانية المحلية داخل صفحات المستندات، مما يحد من قدرة النماذج على اكتساب المعلومات الشاملة ويُضعف قدرتها على التعميم والمرونة والمتانة. في هذه الورقة، نقدّم GlobalDoc، وهي بنية قائمة على المحولات عبر الوسائط، تم تدريبها مسبقًا بطريقة ذاتية التعلم باستخدام ثلاث مهام وهمية مبتكرة. يُحسّن GlobalDoc تعلّم مفاهيم معنوية أكثر غنىً من خلال دمج التمثيلات اللغوية والبصرية، مما يؤدي إلى نماذج أكثر قابلية للنقل. ولضمان تقييم مناسب، نقترح أيضًا مهامين جديدين في مستوى المستندات ضمن مهام VDU، وهما تصنيف صور المستندات بعينة قليلة (DIC) واسترجاع صور المستندات بناءً على المحتوى (DIR)، المصمّمتين لمحاكاة السيناريوهات الصناعية بشكل أقرب. تم إجراء تجارب واسعة النطاق لإثبات فعالية GlobalDoc في البيئات العملية.