تصنيف صور المستندات بكفاءة باستخدام شبكة عصبية رسومية قائمة على المناطق

تُعد تصنيف صور المستندات مجالًا بحثيًا شائعًا لأنه يمكن تجسيده تجاريًا في العديد من التطبيقات المؤسسية عبر قطاعات صناعية مختلفة. وقد ساهمت التطورات الحديثة في نماذج الرؤية الحاسوبية واللغة الكبيرة المُدرّبة مسبقًا، فضلاً عن الشبكات العصبية الرسومية، في تزويد تصنيف صور المستندات بعدد كبير من الأدوات. ومع ذلك، فإن استخدام النماذج الكبيرة المُدرّبة مسبقًا يتطلب عادةً موارد حوسبة كبيرة، مما قد يُضعف الميزة التوفيرية من حيث التكلفة التي تقدمها تصنيفات صور المستندات التلقائية. في هذه الورقة، نقترح إطارًا فعّالًا لتصنيف صور المستندات يعتمد على الشبكات العصبية التلافيفية الرسومية، ويشمل معلومات نصية وبصرية وتنسيقية حول المستند. وقد قمنا بمقارنة دقيقة لخوارزميتنا المقترحة مع عدة نماذج رائدة في مجال الرؤية واللغة على كل من مجموعات بيانات متاحة للعامة ومجموعة بيانات حقيقية لتصنيف المستندات التأمينية. وأظهرت النتائج التجريبية على كل من البيانات المتاحة للعامة والبيانات الواقعية أن طرقنا تحقق أداءً قريبًا جدًا من الحد الأقصى الحالي (SOTA)، مع استهلاك أقل بكثير من الموارد الحاسوبية والوقت المطلوب لتدريب النموذج واستنتاج النتائج. مما يؤدي إلى حلول تتميز بمزايا تكلفة أفضل، خصوصًا في النشر القابل للتوسع ضمن التطبيقات المؤسسية. وأظهرت النتائج أن خوارزميتنا يمكنها تحقيق أداء تصنيف قريب جدًا من الحد الأقصى الحالي. كما قدمنا مقارنات شاملة فيما يتعلق بموارد الحوسبة، وحجم النماذج، ووقت التدريب والاستنتاج بين الطريقة المقترحة والأساليب المعيارية. علاوة على ذلك، قمنا بتحديد التكلفة لكل صورة باستخدام طريقة العرض المقترحة وأساليب المقارنة الأخرى.