StrucTexTv2: التنبؤ البصري-النصي المقنع لتدريب صور الوثائق مسبقًا

في هذا البحث، نقدم StrucTexTv2، إطار تدريب مسبق فعال للصور الوثائقية، من خلال تنفيذ التنبؤ البصري-النصي المقنّع. يتكون الإطار المقترح من مهمتين رئيسيتين للتدريب الذاتي: نمذجة الصورة المقنّعة ونمذجة اللغة المقنّعة، على أساس تقييد الصور على مستوى منطقة النص. تقوم الطريقة المقترحة بتقنين بعض المناطق البصرية بشكل عشوائي وفقًا لتنسيق صندوق الحدود لكلمات النص. أهداف مهام التدريب المسبق لدينا هي إعادة بناء بيكسلات المناطق البصرية المقنّعة والرموز المقنّعة المرتبطة بها في آن واحد. لذلك يمكن للمرمز الذي تم تدريبه مسبقًا التقاط المزيد من الدلالات النصية مقارنةً بنموذج الصورة المقنّع الذي يتنبأ عادةً بألواح الصورة المقنّعة. بالمقارنة مع طرق النمذجة متعددة الوسائط المقنّعة لفهم صور الوثائق التي تعتمد على كل من الوسائط البصرية والنصية، فإن StrucTexTv2 يُحدِّد إدخالًا بصريًا فقط ويتعامل محتملًا مع سيناريوهات تطبيقية أكثر دون الحاجة إلى معالجة ما قبل التعرف الضوئي على الأحرف (OCR). تُظهر التجارب الشاملة على مقاييس رئيسية لفهم صور الوثائق فعالية StrucTexTv2. فهو يحقق أداءً تنافسيًا أو حتى جديدًا في طليعة الأداء في مجموعة متنوعة من المهام اللاحقة مثل تصنيف الصور، تحليل التخطيط، التعرف على بنية الجداول، التعرف الضوئي على الأحرف في الوثائق (OCR)، واستخراج المعلومات تحت السيناريو النهائي-إلى-النهائي.