شبكة الرؤية المتранسформر لتحليل تخطيط الوثيقة

أثبتت نماذج التعلم المسبق للوثائق والنماذج القائمة على الشبكة أنها فعالة للغاية في مهام مختلفة في الذكاء الاصطناعي للوثائق (Document AI). ومع ذلك، فيما يتعلق بتحليل تخطيط الوثيقة (DLA)، تعتمد النماذج المسبقة الموجودة حتى تلك التي تم تعلمها بشكل متعدد الوسائط عادةً على الخصائص النصية أو البصرية فقط. أما النماذج القائمة على الشبكة لـ DLA فهي متعددة الوسائط ولكنها تتجاهل إلى حد كبير تأثير التعلم المسبق. للاستفادة الكاملة من المعلومات المتعددة الوسائط واستغلال تقنيات التعلم المسبق لتعلم تمثيل أفضل لـ DLA، نقدم في هذا البحث VGT، وهو محول شبكي ثنائي التيار (Two-stream Vision Grid Transformer)، حيث تم اقتراح وتعلم GiT (Grid Transformer) بشكل مسبق لتحقيق فهم دلالي على مستوى الرموز ثنائية الأبعاد وعلى مستوى المقاطع. بالإضافة إلى ذلك، تم جمع وإصدار مجموعة بيانات جديدة باسم D$^4$LA، وهي تعتبر حتى الآن أكثر مجموعة بيانات متنوعة ومفصلة تم إنشاؤها يدويًا لتقييم أداء تحليل تخطيط الوثيقة. أظهرت نتائج التجارب أن النموذج المقترح VGT حقق نتائجًا جديدة رائدة في مهام TLA، مثل PubLayNet ($95.7\% \rightarrow 96.2\%$)، DocBank ($79.6\% \rightarrow 84.1\%$)، وD$^4$LA ($67.7\% \rightarrow 68.8\%$). سيتم توفير الكود والنماذج وكذلك مجموعة البيانات D$^4$LA بشكل عام عبر الرابط: ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.