Des chercheurs explorent l’utilisation de l’apprentissage automatique pour la transcription éthique des textes de l’époque moderne précoce
Au cours des deux dernières décennies, la numérisation massive a profondément transformé le paysage de la recherche universitaire. La possibilité de rechercher des mots-clés spécifiques dans des transcriptions numériques des sources a permis de gagner un temps précieux, et les chercheurs ne sont plus obligés de se rendre dans des archives ou des bibliothèques pour consulter les textes. Cependant, l'essor des transcriptions numériques a également soulevé de nouvelles questions éthiques concernant le travail nécessaire pour permettre cette accessibilité. Dans un article publié récemment dans The Sixteenth Century Journal, Serena Strecker et Kimberly Lifton proposent des méthodes afin que les chercheurs obtiennent des transcriptions de sources imprimées de l'époque moderne sans recourir à des pratiques de travail non éthiques. L'article intitulé "Unlocking the Digitized Archive of Early Modern Print: The Automatic Transcription of Early Modern Printed Books" commence par une brève histoire des deux types de logiciels utilisés pour produire des transcriptions. Le logiciel de Reconnaissance Optique de Caractères (OCR) s'est avéré efficace pour transcrire des œuvres des derniers siècles du XIXe et du XXe, mais son imprécision face aux irrégularités fréquentes dans l'impression de l'époque moderne le rend inadapté pour des transcriptions fiables de ces sources. Les chercheurs spécialisés dans l'époque moderne ont donc opté pour la technologie de Reconnaissance de Texte Manuscrit (HTR). Transkribus, le logiciel HTR le plus avancé, offre aux utilisateurs la possibilité de consulter des modèles de transcription publiquement disponibles ou de créer leurs propres modèles. Dans leur étude comparative de divers modèles HTR testés sur des pages sélectionnées de quatre collections d'exemplaires du XVIe siècle, Strecker et Lifton soulignent l'avantage de Transkribus pour faciliter la création de modèles de transcription adaptés aux besoins spécifiques des chercheurs en cinq étapes simples. En utilisant les modèles publics de Transkribus, les chercheurs peuvent générer les données d'entraînement nécessaires pour développer leurs propres modèles d'une grande précision. Les auteures affirment ainsi que "recourir au travail sous-traité, tel que celui des étudiants diplômés ou des travailleurs du Sud mondial, n'est plus ni nécessaire ni souhaitable." Avec l'automation précise de la transcription des œuvres imprimées de l'époque moderne devenue réalité, le domaine des études de l'époque moderne doit réfléchir à la combinaison de travail humain et de technologies d'apprentissage automatique (machine learning) qu'il acceptera, soutiendra et qui façonnera ultimement l'avenir de la recherche. Comme le concluent Strecker et Lifton, il est essential que les chercheurs insistent sur des pratiques de travail éthiques pour éviter d'aggraver les inégalités au sein de la hiérarchie académique ou de perpétuer les inégalités persistantes de la colonisation. Pour plus d'informations, consulter : Serena Strecker et Kimberly Lifton, "Unlocking the Digitized Archive of Early Modern Print: The Automatic Transcription of Early Modern Printed Books", The Sixteenth Century Journal (2025). DOI: 10.1086/735052.