HyperAIHyperAI

Command Palette

Search for a command to run...

DocXClassifier: شبكة عميقة قابلة للتفسير عالية الأداء للتصنيف الصوري للوثائق

Sheraz Ahmed Andreas Dengel Stefan Agne Saifullah

الملخص

تمت دراسة الشبكات العصبية التلافيفية (ConvNets) بشكل معمق في مجال تصنيف صور المستندات، وتشتهر بأدائها المتميز في تصنيف المستندات القائمة على الصور من نوع وحيد النمط (unimodal). ومع ذلك، في الآونة الأخيرة، شهد المجال تحولاً مفاجئاً نحو النماذج متعددة النماط (multimodal) التي تتعلم بشكل متزامن من الخصائص البصرية والنصية للمستندات. وعلى الرغم من أن هذا التحول أدى إلى تطورات كبيرة في المجال، إلا أنه أدى أيضاً إلى تراجع الاهتمام بتحسين النماذج القائمة على ConvNets فقط. وهذا غير مرغوب فيه، لأن العديد من النماذج المتعددة النماط ما زالت تستخدم ConvNets كهيكل بصري أساسي (visual backbone)، وبالتالي فإن تحسين ConvNets يُعد ضرورياً لتحسين هذه النماذج. في هذا البحث، نقدّم DocXClassifier، وهي نموذج يعتمد على ConvNets، يحقق تحسينات كبيرة في الأداء في تصنيف صور المستندات باستخدام أحدث أنماط تصميم النماذج، إلى جانب استراتيجيات حديثة للتكبير البيانات (data augmentation) وتدريب النموذج، ويتفوق في الأداء على بعض النماذج المتعددة النماط التي تم اقتراحها مؤخراً. علاوة على ذلك، يمكن لـ DocXClassifier إنتاج خرائط انتباه من نوع المُحَوِّل (transformer-like attention maps)، مما يجعله قابلاً للتفسير بشكل طبيعي، وهي صفة لم تكن متوفرة في النماذج السابقة لتصنيف الصور. وتحقق منهجيتنا أداءً قياسياً جديداً في تصنيف الصور على مجموعتي بيانات شهيرتين، وهما RVL-CDIP وTobacco3482، حيث بلغ دقة التصنيف في المرتبة الأولى (top-1 accuracy) 94.17% و95.57% على التوالي. كما وضعت نموذجنا سجلاً جديداً بأعلى دقة تصنيف قائمة على الصور تبلغ 90.14% على مجموعة Tobacco3482 دون استخدام التعلم المنقول (transfer learning) من RVL-CDIP. وأخيراً، قد يُستخدم نموذجنا المقترح كهيكل بصري قوي لتطبيقات متعددة النماط المستقبلية، من خلال توفير ميزات بصرية أكثر غنىً من النماذج الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DocXClassifier: شبكة عميقة قابلة للتفسير عالية الأداء للتصنيف الصوري للوثائق | مستندات | HyperAI