دراسة شاملة لتدريب ImageNet للتحليل الصور الوثائقية التاريخية

تحليل الوثائق التاريخية الممسوحة ضوئيًا يشمل مجموعة واسعة من مهام تحليل الصور، والتي غالبًا ما تكون صعبة للتعلم الآلي بسبب نقص العينات المعلمة من قبل البشر. مع ظهور الشبكات العصبية العميقة، أصبحت طريقة واعدة للتعامل مع نقص البيانات التدريبية هي تدريب النماذج بشكل مسبق على صور من مجال مختلف ومن ثم تعديلها لتناسب الوثائق التاريخية. في البحث الحالي، يعد استخدام الشبكات العصبية التي تم تدريبها مسبقًا على قاعدة بيانات ImageNet لأغراض التعرف على الأشياء مثالاً نموذجيًا لهذا النوع من التعلم النقل بين المجالات. ومع ذلك، لا يزال السؤال حول ما إذا كان هذا التدريب المسبق يساعد في تحليل الوثائق التاريخية، التي تتميز بخصائص صورية أساسية مختلفة عن تلك الموجودة في ImageNet، سؤالًا مفتوحًا إلى حد كبير. في هذه الورقة البحثية، نقدم دراسة تجريبية شاملة حول تأثير التدريب المسبق على ImageNet في مهام متعددة لتحليل الوثائق التاريخية، بما في ذلك التعرف على الحروف، تصنيف الأسلوب، تحديد تاريخ المخطوطات، التقسيم الدلالي (semantic segmentation)، واسترجاع المعلومات القائمة على المحتوى. بينما نحصل على نتائج متباينة للتقسيم الدلالي على مستوى البكسل (pixel-level)، فإننا نلاحظ اتجاهًا واضحًا عبر هياكل شبكة عصبية مختلفة بأن التدريب المسبق على ImageNet له تأثير إيجابي على تصنيف البيانات واسترجاع المعلومات القائم على المحتوى.