مُفكِّك الخلايا المتعددة والتعلم المتبادل لتمييز هيكل الجدول وتقديم الأحرف

استخراج محتويات الجداول من الوثائق مثل الأوراق العلمية والتقارير المالية وتحويلها إلى تنسيق يمكن معالجته بواسطة النماذج اللغوية الكبيرة هو مهمة مهمة في معالجة المعلومات المعرفية. حققت النماذج الشاملة، التي تعترف ليس فقط ببنية الجدول ولكن أيضًا بمحتوى الخلايا، أداءً يضاهي أحدث النماذج التي تستخدم أنظمة التعرف على الحروف الخارجية، ولديها إمكانات للتحسينات المستقبلية. بالإضافة إلى ذلك، أصبحت هذه النماذج قادرة الآن على التعرف على الجداول الطويلة التي تحتوي على مئات الخلايا من خلال تقديم انتباه محلي. ومع ذلك، فإن النماذج تعترف ببنية الجدول في اتجاه واحد من الرأس إلى الذيل، ويتم التعرف على محتوى الخلية بشكل مستقل لكل خلية، لذا لا يوجد فرصة لاسترجاع المعلومات المفيدة من الخلايا المجاورة. في هذا البحث، نقترح محكّم محتوى متعدد الخلايا وآلية تعلم ثنائية الاتجاه للتعاون المتبادل لتحسين النهج الشامل. يتم إثبات الفعالية على قاعدتين كبيرتين من البيانات، وتظهر نتائج التجارب أداءً يضاهي أحدث النماذج حتى بالنسبة للجداول الطويلة ذات عدد كبير من الخلايا.