HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الجداول القائمة على الصور: البيانات، النموذج، والتقييم

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes

الملخص

المعلومات الهامة المتعلقة بموضوع محدد في وثيقة غالبًا ما يتم تنظيمها بتنسيق جدول لمساعدة القارئ في استرجاع المعلومات ومقارنتها، مما قد يكون صعبًا تقديمها بلغة طبيعية. ومع ذلك، فإن البيانات الجدولية في الوثائق الرقمية غير المنظمة، مثل تنسيق المستند المحمول (PDF) والصور، تكون صعبة التحليل إلى تنسيق آلي قابل للقراءة بشكل منظم بسبب التعقيد والتنوع في هيكلها وأسلوبها. لتسهيل التعرف على الجداول القائمة على الصور باستخدام التعلم العميق، قمنا بتطوير أكبر مجموعة بيانات متاحة للجمهور للتعرف على الجداول وهي PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet)، والتي تحتوي على 568 ألف صورة جدول مع تمثيل HTML منظم متوافق. يتم توليد PubTabNet تلقائيًا عن طريق مطابقة التمثيلات XML وPDF للمقالات العلمية في مجموعة الوصول المفتوح لـ PubMed Central (PMCOA). كما نقترح هندسة كودير-فكودير الثنائي المعتمد على الانتباه (EDD) جديدة تحول صور الجداول إلى رمز HTML. يحتوي النموذج على كودير بناء يعيد بناء هيكل الجدول ويساعد الكودير الخلوي في التعرف على محتوى الخلايا. بالإضافة إلى ذلك، نقترح مؤشر تشابه جديد يستند إلى المسافة بين الأشجار المعدلة (TEDS) للتعرف على الجداول، والذي يلتقط بشكل أكثر دقة عدم تطابق الخلايا المتعددة والخطايا المرتبطة بتحويل النص من الصور (OCR) مقارنة بالمؤشر المُعَرَّف سابقًا. تُظهر التجارب أن نموذج EDD يمكنه التعرف بدقة على الجداول المعقدة اعتمادًا فقط على تمثيل الصورة، مما يتفوق بنسبة 9.7% من حيث المؤشر المطلق TEDS مقارنة بأحدث التقنيات المتوفرة حاليًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على الجداول القائمة على الصور: البيانات، النموذج، والتقييم | مستندات | HyperAI