تقسيم، تضمين ودمج: معرفة دقيقة لهيكل الجدول

التعرف على هيكل الجدول هو جزء أساسي لتمكين الآلات من فهم الجداول. مهمته الرئيسية هي التعرف على الهيكل الداخلي للجدول. ومع ذلك، بسبب التعقيد والتنوع في بنية ونمط الجداول، يصعب تحليل البيانات الجدولية إلى الصيغة المهيكلة التي يمكن للآلات فهمها بسهولة، خاصة بالنسبة للجداول المعقدة. في هذا البحث، نقدم تقنية Split, Embed and Merge (SEM)، وهي أداة دقيقة للتعرف على هيكل الجدول. نموذجنا يستقبل صور الجداول كمدخلات ويمكنه التعرف بشكل صحيح على بنية الجداول، سواء كانت بسيطة أو معقدة. تتكون SEM بشكل رئيسي من ثلاثة أجزاء: القاطع (splitter)، والمدمج (embedder)، والمجاور (merger). في المرحلة الأولى، نطبق القاطع لتنبؤ المناطق المحتملة لمفاصيل الصفوف (الأعمدة) في الجدول والحصول على البنية الشبكية الدقيقة للجدول. في المرحلة الثانية، بعد الأخذ بعين الاعتبار المعلومات النصية في الجدول بشكل شامل، نقوم بدمج الخصائص الناتجة لكل خلية جدول من الوسائط البصرية واللغوية. بالإضافة إلى ذلك، حققنا دقة أعلى في تجاربنا من خلال إضافة خصائص معنوية إضافية. أخيرًا، نعالج عملية دمج هذه الخلايا الأساسية للجدول بطريقة الانحدار الذاتي. يتم تعلم نتائج الدمج المقابلة من خلال آلية الانتباه (attention mechanism). في تجاربنا، حققت SEM متوسط قياس F1 بنسبة 97.11٪ على مجموعة بيانات SciTSR، مما يتفوق بكثير على الأساليب الأخرى. كما حصلنا على المركز الأول في مسابقة ICDAR 2021 لتحليل الأدبيات العلمية (Task-B) فيما يتعلق بالجداول المعقدة وعلى المركز الثالث في جميع الجداول. التجارب الواسعة التي أجريت على مجموعات بيانات عامة أخرى تثبت أن نموذجنا يحقق أفضل مستوى حاليًا (state-of-the-art).