HyperAIHyperAI

Command Palette

Search for a command to run...

دمج الميزات العميقة البصرية والنصية لتصنيف صور المستندات

Marçal Rusiñol Mickael Coustaty Ziheng Ming Souhail Bakkali

الملخص

تم استكشاف موضوع تصنيف صور المستندات النصية بشكل واسع خلال السنوات القليلة الماضية. وقد تعاملت معظم الطرق الحديثة مع هذه المهمة من خلال التعلم المشترك للخصائص البصرية لصور المستندات والمحتوى النصي المقابل لها. وبسبب التنوع الهيكلي لصور المستندات، فإن استخلاص المعلومات الدلالية من محتواها النصي يُعد مفيدًا جدًا في مهام معالجة صور المستندات مثل استرجاع المستندات، واستخراج المعلومات، وتصنيف النصوص. في هذا العمل، تم اقتراح بنية عصبية مزدوجة التدفق لإنجاز مهمة تصنيف صور المستندات. وتم إجراء تحقيق شامل للشبكات العصبية الشائعة الاستخدام حاليًا، وكذلك إجراءات تمثيل الكلمات (word embedding) المستخدمة كأساس (backbones)، بهدف استخلاص الخصائص البصرية والنصية من صور المستندات. علاوةً على ذلك، تم تقديم منهجية تعلم مشترك للخصائص تدمج بين الخصائص البصرية وتمثيلات النصوص، كمنهجية تجميع متأخرة (late fusion). وقد أظهر التحليل النظري والنتائج التجريبية تفوق الطريقة المقترحة لتعلم الخصائص المشتركة مقارنةً بالطرق الأحادية الطراز. كما تفوقت هذه الطريقة المشتركة على أحدث النتائج المنشورة، حيث حققت دقة تصنيف بلغت 97.05% على مجموعة بيانات RVL-CDIP الكبيرة النطاق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp