HyperAIHyperAI
منذ 2 أشهر

نموذج تعلم متعدد المهام من النهاية إلى النهاية للاعتراف بالجداول المستندة إلى الصور

Nam Tuan Ly; Atsuhiro Takasu
نموذج تعلم متعدد المهام من النهاية إلى النهاية للاعتراف بالجداول المستندة إلى الصور
الملخص

التعرف على الجداول المستندة إلى الصور هو مهمة صعبة بسبب تنوع أساليب الجداول وتعقيد بنية الجداول. تركز معظم الطرق السابقة على نهج غير شامل (non-end-to-end) يقسم المشكلة إلى مشكلتين منفصلتين: التعرف على بنية الجدول؛ والتعرف على محتوى الخلايا، ثم يحاول حل كل مشكلة بشكل مستقل باستخدام نظامين منفصلين. في هذا البحث، نقترح نموذج تعلم متعدد المهام شاملًا (end-to-end) للتعرف على الجداول المستندة إلى الصور. يتكون النموذج المقترح من مشفّر مشترك واحد، ومفكك مشترك واحد، وثلاثة مفككات منفصلة تستخدم لتعلم ثلاث مهمات فرعية للتعرف على الجداول: التعرف على بنية الجدول، كشف الخلايا، والتعرف على محتوى الخلايا. يمكن تدريب النظام بأكمله وإجراء الاستدلال عليه بسهولة باستخدام نهج شامل (end-to-end). في التجارب، قمنا بتقييم أداء النموذج المقترح على قاعدتي بيانات كبيرتين: FinTabNet وPubTabNet. أظهرت نتائج التجارب أن النموذج المقترح يتفوق على أفضل الطرق الحالية في جميع قواعد البيانات المرجعية.

نموذج تعلم متعدد المهام من النهاية إلى النهاية للاعتراف بالجداول المستندة إلى الصور | أحدث الأوراق البحثية | HyperAI