EAML: شبكة تعلم متبادل تعتمد على الانتباه الذاتي والجمع لتصنيف صور المستندات

في الفترة الأخيرة، لاقت الشبكات العصبية العميقة المعقدة اهتمامًا كبيرًا في مهام فهم المستندات المختلفة، مثل تصنيف صور المستندات واسترجاعها. وبما أن العديد من أنواع المستندات تتميز بنمط بصري مميز، فإن تعلم السمات البصرية فقط باستخدام الشبكات العصبية العميقة (CNN) لتصنيف صور المستندات واجه مشكلة ضعف التمييز بين الفئات (low inter-class discrimination)، وارتفاع التغيرات البنائية داخل الفئة (high intra-class structural variations) بين فئاتها. وفي الوقت ذاته، أدى فهم النص على المستوى النصي، المتعلم بشكل مشترك مع الخصائص البصرية المقابلة داخل صورة المستند، إلى تحسين ملحوظ في أداء التصنيف من حيث الدقة. في هذا البحث، نصمم وحدة دمج تعتمد على الانتباه الذاتي (self-attention-based fusion module)، والتي تعمل كوحدة أساسية في شبكتنا المجمعة القابلة للتدريب. وتسمح هذه الوحدة بتعلم السمات التمييزية للوسائط البصرية والنصية في آن واحد خلال مرحلة التدريب. بالإضافة إلى ذلك، نشجع التعلم المتبادل من خلال نقل المعرفة الإيجابية بين الوسائط البصرية والنصية أثناء مرحلة التدريب. ويُحقّق هذا التقييد من خلال إضافة مصطلح خسارة جديد، وهو خسارة التباين المقطوع (Truncated-Kullback-Leibler divergence loss) المُعدّل (Tr-KLD-Reg)، كمُعدّل تقويمي (regularization term) إلى الإطار المراقب التقليدي. إلى حد علمنا، فإن هذه هي المرة الأولى التي يتم فيها استغلال نهج التعلم المتبادل مع وحدة دمج تعتمد على الانتباه الذاتي لتنفيذ تصنيف صور المستندات. وتُظهر النتائج التجريبية فعالية نهجنا من حيث الدقة في حالات الوسائط الفردية والوسائط المتعددة. وبالتالي، تتفوق النموذج المُقترح، المبني على التعلم المتبادل واعتمادًا على الانتباه الذاتي في التجميع، على أفضل النتائج الحالية في التصنيف باستخدام مجموعتي بيانات معيار RVL-CDIP وTobacco-3482.