HyperAIHyperAI

Command Palette

Search for a command to run...

PP-StructureV2: نظام تحليل الوثائق الأقوى

Chenxia Li Ruoyu Guo Jun Zhou Mengtao An Yuning Du Lingfeng Zhu Yi Liu Xiaoguang Hu Dianhai Yu

الملخص

يوجد كمية كبيرة من بيانات الوثائق في شكل غير مهيكل، مثل الصور الخام دون أي معلومات نصية. تصميم نظام تحليل صور الوثائق العملي هو مهمة ذات معنى ولكنها تحمل تحديات. في الأبحاث السابقة، اقترحنا نظام تحليل وثائق ذكي يُسمى PP-Structure. بهدف تطوير وتحديث وظائف وأداء PP-Structure، نقدم في هذا العمل PP-StructureV2، الذي يتضمن نظامين فرعيين: استخراج المعلومات التخطيطية واستخراج المعلومات الرئيسية. أولاً، قمنا بدمج وحدة تصحيح اتجاه الصورة (Image Direction Correction) ووحدة استعادة التخطيط (Layout Restoration) لتعزيز وظائف النظام. ثانياً، تم استخدام ثماني استراتيجيات عملية في PP-StructureV2 لتحقيق أداء أفضل. بالنسبة لنموذج تحليل التخطيط، قدمنا الكاشف الفائق الخفة PP-PicoDet وخوارزمية التقطير المعرفي FGD لتخفيف وزن النموذج، مما زاد سرعة الاستدلال بمقدار 11 مرة مع نسبة mAP مقاربة. بالنسبة لنموذج التعرف على الجداول، استخدمنا PP-LCNet وCSP-PAN وSLAHead لتحسين الوحدة الأساسية والوحدة المندمجة للخصائص والوحدة الفكية على التوالي، مما رفع دقة بنية الجدول بنسبة 6% مع سرعة استدلال مقاربة. بالنسبة لنموذج استخراج المعلومات الرئيسية، قدمنا VI-LayoutXLM وهو هيكل LayoutXLM مستقل عن الخصائص البصرية (visual-feature independent)، وخوارزمية الفرز TB-YX وخوارزمية التقطير المعرفي U-DML، والتي حققت تحسينات بنسبة 2.8% و9.1% على التوالي في مؤشر Hmean لمهام التعرف على الكيانات الدلالية واستخراج العلاقات. جميع النماذج والرموز المذكورة أعلاه متاحة بشكل مفتوح المصدر في مستودع GitHub PaddleOCR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp