منذ 8 أشهر

الملخص

يوجد كمية كبيرة من بيانات الوثائق في شكل غير مهيكل، مثل الصور الخام دون أي معلومات نصية. تصميم نظام تحليل صور الوثائق العملي هو مهمة ذات معنى ولكنها تحمل تحديات. في الأبحاث السابقة، اقترحنا نظام تحليل وثائق ذكي يُسمى PP-Structure. بهدف تطوير وتحديث وظائف وأداء PP-Structure، نقدم في هذا العمل PP-StructureV2، الذي يتضمن نظامين فرعيين: استخراج المعلومات التخطيطية واستخراج المعلومات الرئيسية. أولاً، قمنا بدمج وحدة تصحيح اتجاه الصورة (Image Direction Correction) ووحدة استعادة التخطيط (Layout Restoration) لتعزيز وظائف النظام. ثانياً، تم استخدام ثماني استراتيجيات عملية في PP-StructureV2 لتحقيق أداء أفضل. بالنسبة لنموذج تحليل التخطيط، قدمنا الكاشف الفائق الخفة PP-PicoDet وخوارزمية التقطير المعرفي FGD لتخفيف وزن النموذج، مما زاد سرعة الاستدلال بمقدار 11 مرة مع نسبة mAP مقاربة. بالنسبة لنموذج التعرف على الجداول، استخدمنا PP-LCNet وCSP-PAN وSLAHead لتحسين الوحدة الأساسية والوحدة المندمجة للخصائص والوحدة الفكية على التوالي، مما رفع دقة بنية الجدول بنسبة 6% مع سرعة استدلال مقاربة. بالنسبة لنموذج استخراج المعلومات الرئيسية، قدمنا VI-LayoutXLM وهو هيكل LayoutXLM مستقل عن الخصائص البصرية (visual-feature independent)، وخوارزمية الفرز TB-YX وخوارزمية التقطير المعرفي U-DML، والتي حققت تحسينات بنسبة 2.8% و9.1% على التوالي في مؤشر Hmean لمهام التعرف على الكيانات الدلالية واستخراج العلاقات. جميع النماذج والرموز المذكورة أعلاه متاحة بشكل مفتوح المصدر في مستودع GitHub PaddleOCR.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار