التعلم القائم على التدرج المطبق على التعرف على المستندات
تُعد الشبكات العصبية متعددة الطبقات التي تُدرَّب باستخدام خوارزمية الانتشار العكسي أفضل مثال على تقنية تعلم تعتمد على المدرج (الجراديان) الناجحة. وباستخدام بنية شبكة مناسبة، يمكن لخوارزميات التعلم القائمة على المدرج أن تُولِّد سطح قرار معقد قادر على تصنيف أنماط عالية الأبعاد، مثل الأحرف المكتوبة بخط اليد، مع الحد الأدنى من المعالجة المسبقة. يُستعرض في هذه الورقة مجموعة من الطرق المطبقة في تمييز الأحرف المكتوبة بخط اليد، ويتم مقارنتها في مهمة قياسية لتمييز الأرقام المكتوبة بخط اليد. ويُظهر أن الشبكات العصبية التلافيفية (Convolutional Neural Networks)، التي صُمِّمت خصيصًا للتعامل مع التباين في الأشكال ثنائية الأبعاد، تتفوّق على جميع التقنيات الأخرى. وتتكوّن أنظمة تمييز المستندات في الحياة الواقعية من عدة وحدات متعددة، تشمل استخراج الحقول، وتقسيم النص، ونمذجة اللغة. ويُقدَّم نموذج جديد للتعلم يُسمّى الشبكات العصبية الرسومية (Graph Transformer Networks - GTN)، الذي يمكّن هذه الأنظمة متعددة الوحدات من التدريب بشكل شامل باستخدام الطرق القائمة على المدرج، بهدف تقليل معيار أداء عام. ويُقدَّم وصف لنظامين لتمييز الكتابة اليدوية في الوقت الفعلي. وتُظهر التجارب ميزة التدريب الشامل، ومرنّة الشبكات العصبية الرسومية. كما يُعرض نموذجًا لشبكة عصبية رسومية لقراءة شيكات البنوك، حيث يدمج مُعرّفات الأحرف القائمة على الشبكات العصبية التلافيفية مع تقنيات التدريب الشامل، مما يُحقِّق دقة قياسية في قراءة الشيكات التجارية والأفراد. وقد تم نشر هذا النظام تجاريًا، ويُستخدم لقراءة ملايين الشيكات يوميًا.