التعرف على الجداول القائمة على الصور: البيانات، النموذج، والتقييم

المعلومات الهامة المتعلقة بموضوع محدد في وثيقة غالبًا ما يتم تنظيمها بتنسيق جدول لمساعدة القارئ في استرجاع المعلومات ومقارنتها، مما قد يكون صعبًا تقديمها بلغة طبيعية. ومع ذلك، فإن البيانات الجدولية في الوثائق الرقمية غير المنظمة، مثل تنسيق المستند المحمول (PDF) والصور، تكون صعبة التحليل إلى تنسيق آلي قابل للقراءة بشكل منظم بسبب التعقيد والتنوع في هيكلها وأسلوبها. لتسهيل التعرف على الجداول القائمة على الصور باستخدام التعلم العميق، قمنا بتطوير أكبر مجموعة بيانات متاحة للجمهور للتعرف على الجداول وهي PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet)، والتي تحتوي على 568 ألف صورة جدول مع تمثيل HTML منظم متوافق. يتم توليد PubTabNet تلقائيًا عن طريق مطابقة التمثيلات XML وPDF للمقالات العلمية في مجموعة الوصول المفتوح لـ PubMed Central (PMCOA). كما نقترح هندسة كودير-فكودير الثنائي المعتمد على الانتباه (EDD) جديدة تحول صور الجداول إلى رمز HTML. يحتوي النموذج على كودير بناء يعيد بناء هيكل الجدول ويساعد الكودير الخلوي في التعرف على محتوى الخلايا. بالإضافة إلى ذلك، نقترح مؤشر تشابه جديد يستند إلى المسافة بين الأشجار المعدلة (TEDS) للتعرف على الجداول، والذي يلتقط بشكل أكثر دقة عدم تطابق الخلايا المتعددة والخطايا المرتبطة بتحويل النص من الصور (OCR) مقارنة بالمؤشر المُعَرَّف سابقًا. تُظهر التجارب أن نموذج EDD يمكنه التعرف بدقة على الجداول المعقدة اعتمادًا فقط على تمثيل الصورة، مما يتفوق بنسبة 9.7% من حيث المؤشر المطلق TEDS مقارنة بأحدث التقنيات المتوفرة حاليًا.