HyperAIHyperAI
منذ 17 أيام

DocXClassifier: شبكة عميقة قابلة للتفسير عالية الأداء للتصنيف الصوري للوثائق

{Sheraz Ahmed, Andreas Dengel, Stefan Agne, Saifullah}
الملخص

تمت دراسة الشبكات العصبية التلافيفية (ConvNets) بشكل معمق في مجال تصنيف صور المستندات، وتشتهر بأدائها المتميز في تصنيف المستندات القائمة على الصور من نوع وحيد النمط (unimodal). ومع ذلك، في الآونة الأخيرة، شهد المجال تحولاً مفاجئاً نحو النماذج متعددة النماط (multimodal) التي تتعلم بشكل متزامن من الخصائص البصرية والنصية للمستندات. وعلى الرغم من أن هذا التحول أدى إلى تطورات كبيرة في المجال، إلا أنه أدى أيضاً إلى تراجع الاهتمام بتحسين النماذج القائمة على ConvNets فقط. وهذا غير مرغوب فيه، لأن العديد من النماذج المتعددة النماط ما زالت تستخدم ConvNets كهيكل بصري أساسي (visual backbone)، وبالتالي فإن تحسين ConvNets يُعد ضرورياً لتحسين هذه النماذج. في هذا البحث، نقدّم DocXClassifier، وهي نموذج يعتمد على ConvNets، يحقق تحسينات كبيرة في الأداء في تصنيف صور المستندات باستخدام أحدث أنماط تصميم النماذج، إلى جانب استراتيجيات حديثة للتكبير البيانات (data augmentation) وتدريب النموذج، ويتفوق في الأداء على بعض النماذج المتعددة النماط التي تم اقتراحها مؤخراً. علاوة على ذلك، يمكن لـ DocXClassifier إنتاج خرائط انتباه من نوع المُحَوِّل (transformer-like attention maps)، مما يجعله قابلاً للتفسير بشكل طبيعي، وهي صفة لم تكن متوفرة في النماذج السابقة لتصنيف الصور. وتحقق منهجيتنا أداءً قياسياً جديداً في تصنيف الصور على مجموعتي بيانات شهيرتين، وهما RVL-CDIP وTobacco3482، حيث بلغ دقة التصنيف في المرتبة الأولى (top-1 accuracy) 94.17% و95.57% على التوالي. كما وضعت نموذجنا سجلاً جديداً بأعلى دقة تصنيف قائمة على الصور تبلغ 90.14% على مجموعة Tobacco3482 دون استخدام التعلم المنقول (transfer learning) من RVL-CDIP. وأخيراً، قد يُستخدم نموذجنا المقترح كهيكل بصري قوي لتطبيقات متعددة النماط المستقبلية، من خلال توفير ميزات بصرية أكثر غنىً من النماذج الحالية.

DocXClassifier: شبكة عميقة قابلة للتفسير عالية الأداء للتصنيف الصوري للوثائق | أحدث الأوراق البحثية | HyperAI