HyperAIHyperAI

Command Palette

Search for a command to run...

تقسيم، تضمين ودمج: معرفة دقيقة لهيكل الجدول

Zhenrong Zhang Jianshu Zhang Jun Du Fengren Wang

الملخص

التعرف على هيكل الجدول هو جزء أساسي لتمكين الآلات من فهم الجداول. مهمته الرئيسية هي التعرف على الهيكل الداخلي للجدول. ومع ذلك، بسبب التعقيد والتنوع في بنية ونمط الجداول، يصعب تحليل البيانات الجدولية إلى الصيغة المهيكلة التي يمكن للآلات فهمها بسهولة، خاصة بالنسبة للجداول المعقدة. في هذا البحث، نقدم تقنية Split, Embed and Merge (SEM)، وهي أداة دقيقة للتعرف على هيكل الجدول. نموذجنا يستقبل صور الجداول كمدخلات ويمكنه التعرف بشكل صحيح على بنية الجداول، سواء كانت بسيطة أو معقدة. تتكون SEM بشكل رئيسي من ثلاثة أجزاء: القاطع (splitter)، والمدمج (embedder)، والمجاور (merger). في المرحلة الأولى، نطبق القاطع لتنبؤ المناطق المحتملة لمفاصيل الصفوف (الأعمدة) في الجدول والحصول على البنية الشبكية الدقيقة للجدول. في المرحلة الثانية، بعد الأخذ بعين الاعتبار المعلومات النصية في الجدول بشكل شامل، نقوم بدمج الخصائص الناتجة لكل خلية جدول من الوسائط البصرية واللغوية. بالإضافة إلى ذلك، حققنا دقة أعلى في تجاربنا من خلال إضافة خصائص معنوية إضافية. أخيرًا، نعالج عملية دمج هذه الخلايا الأساسية للجدول بطريقة الانحدار الذاتي. يتم تعلم نتائج الدمج المقابلة من خلال آلية الانتباه (attention mechanism). في تجاربنا، حققت SEM متوسط قياس F1 بنسبة 97.11٪ على مجموعة بيانات SciTSR، مما يتفوق بكثير على الأساليب الأخرى. كما حصلنا على المركز الأول في مسابقة ICDAR 2021 لتحليل الأدبيات العلمية (Task-B) فيما يتعلق بالجداول المعقدة وعلى المركز الثالث في جميع الجداول. التجارب الواسعة التي أجريت على مجموعات بيانات عامة أخرى تثبت أن نموذجنا يحقق أفضل مستوى حاليًا (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp