HyperAIHyperAI
منذ 2 أشهر

PP-StructureV2: نظام تحليل الوثائق الأقوى

Chenxia Li; Ruoyu Guo; Jun Zhou; Mengtao An; Yuning Du; Lingfeng Zhu; Yi Liu; Xiaoguang Hu; Dianhai Yu
PP-StructureV2: نظام تحليل الوثائق الأقوى
الملخص

يوجد كمية كبيرة من بيانات الوثائق في شكل غير مهيكل، مثل الصور الخام دون أي معلومات نصية. تصميم نظام تحليل صور الوثائق العملي هو مهمة ذات معنى ولكنها تحمل تحديات. في الأبحاث السابقة، اقترحنا نظام تحليل وثائق ذكي يُسمى PP-Structure. بهدف تطوير وتحديث وظائف وأداء PP-Structure، نقدم في هذا العمل PP-StructureV2، الذي يتضمن نظامين فرعيين: استخراج المعلومات التخطيطية واستخراج المعلومات الرئيسية. أولاً، قمنا بدمج وحدة تصحيح اتجاه الصورة (Image Direction Correction) ووحدة استعادة التخطيط (Layout Restoration) لتعزيز وظائف النظام. ثانياً، تم استخدام ثماني استراتيجيات عملية في PP-StructureV2 لتحقيق أداء أفضل. بالنسبة لنموذج تحليل التخطيط، قدمنا الكاشف الفائق الخفة PP-PicoDet وخوارزمية التقطير المعرفي FGD لتخفيف وزن النموذج، مما زاد سرعة الاستدلال بمقدار 11 مرة مع نسبة mAP مقاربة. بالنسبة لنموذج التعرف على الجداول، استخدمنا PP-LCNet وCSP-PAN وSLAHead لتحسين الوحدة الأساسية والوحدة المندمجة للخصائص والوحدة الفكية على التوالي، مما رفع دقة بنية الجدول بنسبة 6% مع سرعة استدلال مقاربة. بالنسبة لنموذج استخراج المعلومات الرئيسية، قدمنا VI-LayoutXLM وهو هيكل LayoutXLM مستقل عن الخصائص البصرية (visual-feature independent)، وخوارزمية الفرز TB-YX وخوارزمية التقطير المعرفي U-DML، والتي حققت تحسينات بنسبة 2.8% و9.1% على التوالي في مؤشر Hmean لمهام التعرف على الكيانات الدلالية واستخراج العلاقات. جميع النماذج والرموز المذكورة أعلاه متاحة بشكل مفتوح المصدر في مستودع GitHub PaddleOCR.