TableNet: نموذج التعلم العميق للكشف عن الجداول واستخراج البيانات الجدولية من صور المستندات الممسوحة ضوئيًا

مع الانتشار الواسع لاستخدام الهواتف المحمولة والمسح الضوئي لتصوير وتحميل الوثائق، أصبحت الحاجة إلى استخراج المعلومات المحصورة في صور الوثائق غير المنظمة، مثل إيصالات البيع بالتجزئة وأوراق طلبات التأمين والفواتير المالية، أكثر إلحاحًا. أحد العقبات الرئيسية لتحقيق هذا الهدف هو أن هذه الصور غالبًا ما تحتوي على معلومات على شكل جداول، واستخراج البيانات من الصور الفرعية للجداول يمثل مجموعة فريدة من التحديات. وهذا يشمل الكشف الدقيق عن المنطقة الجدولية داخل الصورة، ثم الكشف عن المعلومات واستخراجها من الصفوف والأعمدة للجدول المكتشف. رغم تحقيق بعض التقدم في الكشف عن الجداول، فإن استخراج محتويات الجدول لا يزال تحديًا نظرًا لأن هذا يتطلب اعترافًا أكثر دقة ببنية الجدول (الصفوف والأعمدة). حاولت الأساليب السابقة حل مشكلتي الكشف عن الجداول واعتراف البنية بشكل مستقل باستخدام نموذجين منفصلين. في هذا البحث، نقترح TableNet: وهو نموذج تعلم عميق جديد ومبتكر لنهاية إلى نهاية للكشف عن الجداول واعتراف البنية. يستغل النموذج الارتباط بين مهمتي الكشف عن الجداول واعتراف بنية الجدول لفصل المناطق الجدولية والعمودية. يتم ذلك تبعًا لاستخراج الصفوف القائمة على القواعد الدلالية من المناطق الفرعية للجدول المحددة. تم تقييم النموذج المقترح ومنهج الاستخراج على قاعدة بيانات ICDAR 2013 ومجموعة بيانات Marmot Table المتاحة علنًا، حيث حقق أفضل النتائج الحالية. بالإضافة إلى ذلك، أظهرنا أن إدخال خصائص دلالية إضافية يحسن أداء النموذج وأن النموذج يظهر التعلم النقل عبر قواعد البيانات. مساهمة أخرى لهذا البحث هي تقديم المزيد من تعليقات بنية الجدول لمجموعة بيانات Marmot، والتي تحتوي حاليًا فقط على تعليقات للكشف عن الجداول.