المتحولات عالية الأداء للاعتراف ببنية الجداول تحتاج إلى التحويلات المبكرة

التعرف على هيكل الجدول (TSR) يهدف إلى تحويل الصور الجدولية إلى صيغة قابلة للقراءة آليًا، حيث يقوم مُشفِّر بصري باستخراج خصائص الصورة ومُفكِّك نصي بإنتاج رموز تمثل الجدول. تستخدم النهج الحالية عمومًا الهياكل الأساسية لشبكات العصبونات التلافيفية الكلاسيكية (CNN) للمُشفِّر البصري والمتغيرات (Transformers) للمُفكِّك النصي. ومع ذلك، فإن هذه الهندسة المختلطة بين CNN والمتغيرات تدخل مُشفِّرًا بصريًا معقدًا يشكل حوالي نصف معلمات النموذج الإجمالية، مما يقلل بشكل كبير من سرعة التدريب والاستدلال ويعرقل إمكانية التعلم ذاتيًا في مجال التعرف على هيكل الجدول. في هذا العمل، قمنا بتصميم مُشفِّر بصري خفيف الوزن لمجال التعرف على هيكل الجدول دون المساس بقوة التعبير. اكتشفنا أن جذر تلافيفي يمكنه تحقيق أداء يعادل أداء الهياكل الأساسية لشبكات العصبونات التلافيفية الكلاسيكية باستخدام نموذج أكثر بساطة بكثير. يحقق الجذر التلافيفي توازنًا مثاليًا بين عاملين حاسمين لتحقيق أداء عالي في مجال التعرف على هيكل الجدول: نسبة حقل الاستقبال (RF) الأعلى وطول متتالية أطول. هذا يسمح له بأن "يرى" جزءًا مناسبًا من الجدول وأن "يخزن" البنية المعقدة للجدول ضمن طول السياق الكافي للمتغير اللاحق. أجرينا دراسات تقليص قابلة للتكرار وأصدرنا كودنا كمصدر مفتوح على https://github.com/poloclub/tsr-convstem لتعزيز الشفافية وإلهام الابتكارات وتسهيل المقارنات العادلة في مجالنا، حيث تعد الجداول وسيلة واعدة للتعلم التمثيلي.