Une Étude Complète de la Pré-Formation sur ImageNet pour l'Analyse des Images de Documents Historiques

L'analyse automatique de documents historiques numérisés englobe une large gamme de tâches d'analyse d'images, qui sont souvent complexes pour l'apprentissage automatique en raison du manque d'échantillons d'apprentissage annotés par des humains. Avec l'avènement des réseaux neuronaux profonds, une approche prometteuse pour pallier le manque de données d'entraînement consiste à pré-entraîner les modèles sur des images provenant d'un domaine différent, puis à les affiner sur des documents historiques. Dans la recherche actuelle, un exemple typique de ce type d'apprentissage par transfert inter-domaines est l'utilisation de réseaux neuronaux pré-entraînés sur la base de données ImageNet pour la reconnaissance d'objets. Il reste largement ouvert de savoir si cette pré-entraîne aide à analyser les documents historiques, qui possèdent des propriétés fondamentalement différentes en termes d'image par rapport à ImageNet. Dans cet article, nous présentons une enquête empirique complète sur l'effet de la pré-entraîne ImageNet pour diverses tâches d'analyse de documents historiques, incluant la reconnaissance de caractères, la classification stylistique, la datation des manuscrits, la segmentation sémantique et la récupération basée sur le contenu. Bien que nous obtenions des résultats mitigés pour la segmentation sémantique au niveau des pixels, nous observons une tendance claire à travers différentes architectures de réseau que la pré-entraîne ImageNet a un effet positif sur la classification ainsi que sur la récupération basée sur le contenu.