HyperAIHyperAI
منذ 3 أشهر

دمج الميزات العميقة البصرية والنصية لتصنيف صور المستندات

{Marçal Rusiñol, Mickael Coustaty, Ziheng Ming, Souhail Bakkali}
دمج الميزات العميقة البصرية والنصية لتصنيف صور المستندات
الملخص

تم استكشاف موضوع تصنيف صور المستندات النصية بشكل واسع خلال السنوات القليلة الماضية. وقد تعاملت معظم الطرق الحديثة مع هذه المهمة من خلال التعلم المشترك للخصائص البصرية لصور المستندات والمحتوى النصي المقابل لها. وبسبب التنوع الهيكلي لصور المستندات، فإن استخلاص المعلومات الدلالية من محتواها النصي يُعد مفيدًا جدًا في مهام معالجة صور المستندات مثل استرجاع المستندات، واستخراج المعلومات، وتصنيف النصوص. في هذا العمل، تم اقتراح بنية عصبية مزدوجة التدفق لإنجاز مهمة تصنيف صور المستندات. وتم إجراء تحقيق شامل للشبكات العصبية الشائعة الاستخدام حاليًا، وكذلك إجراءات تمثيل الكلمات (word embedding) المستخدمة كأساس (backbones)، بهدف استخلاص الخصائص البصرية والنصية من صور المستندات. علاوةً على ذلك، تم تقديم منهجية تعلم مشترك للخصائص تدمج بين الخصائص البصرية وتمثيلات النصوص، كمنهجية تجميع متأخرة (late fusion). وقد أظهر التحليل النظري والنتائج التجريبية تفوق الطريقة المقترحة لتعلم الخصائص المشتركة مقارنةً بالطرق الأحادية الطراز. كما تفوقت هذه الطريقة المشتركة على أحدث النتائج المنشورة، حيث حققت دقة تصنيف بلغت 97.05% على مجموعة بيانات RVL-CDIP الكبيرة النطاق.