نموذج تعلم متعدد المهام من النهاية إلى النهاية للاعتراف بالجداول المستندة إلى الصور

التعرف على الجداول المستندة إلى الصور هو مهمة صعبة بسبب تنوع أساليب الجداول وتعقيد بنية الجداول. تركز معظم الطرق السابقة على نهج غير شامل (non-end-to-end) يقسم المشكلة إلى مشكلتين منفصلتين: التعرف على بنية الجدول؛ والتعرف على محتوى الخلايا، ثم يحاول حل كل مشكلة بشكل مستقل باستخدام نظامين منفصلين. في هذا البحث، نقترح نموذج تعلم متعدد المهام شاملًا (end-to-end) للتعرف على الجداول المستندة إلى الصور. يتكون النموذج المقترح من مشفّر مشترك واحد، ومفكك مشترك واحد، وثلاثة مفككات منفصلة تستخدم لتعلم ثلاث مهمات فرعية للتعرف على الجداول: التعرف على بنية الجدول، كشف الخلايا، والتعرف على محتوى الخلايا. يمكن تدريب النظام بأكمله وإجراء الاستدلال عليه بسهولة باستخدام نهج شامل (end-to-end). في التجارب، قمنا بتقييم أداء النموذج المقترح على قاعدتي بيانات كبيرتين: FinTabNet وPubTabNet. أظهرت نتائج التجارب أن النموذج المقترح يتفوق على أفضل الطرق الحالية في جميع قواعد البيانات المرجعية.