Apprentissage des mètres des poèmes arabes et anglais avec des réseaux de neurones récurrents : une avancée pour la compréhension et la synthèse linguistiques

Reconnaître un texte comme étant un poème ou une prose est généralement facile pour la majorité des personnes ; cependant, seul les spécialistes peuvent déterminer à quel mètre appartient un poème. Dans cet article, nous construisons des modèles de Réseaux de Neurones Récurrents (RNN) capables de classer les poèmes selon leurs mètres à partir d'un texte brut. Le texte d'entrée est encodé au niveau des caractères et alimenté directement aux modèles sans extraction manuelle de caractéristiques. Cela constitue une avancée significative dans la compréhension et la synthèse des langues par les machines en général, et de la langue arabe en particulier. Parmi les 16 mètres de poèmes arabes et les 4 mètres de poèmes anglais, les réseaux ont été capables de classer correctement les poèmes avec une précision globale de 96,38 % et 82,31 % respectivement. Les ensembles de données de poèmes utilisés pour cette recherche étaient massifs, comprenant plus de 1,5 million de vers, collectés à partir de différentes sources non techniques, principalement des sites littéraires arabes et anglais, et dans divers formats hétérogènes et non structurés. Ces ensembles de données sont désormais disponibles publiquement sous forme propre, structurée et documentée pour d'autres recherches futures. Selon les connaissances des auteurs, cette recherche est la première à aborder le classement des mètres de poèmes dans une approche d'apprentissage automatique en général, et dans une approche basée sur RNN sans caractéristiques en particulier. De plus, l'ensemble de données est le premier ensemble disponible publiquement prêt à être utilisé pour des recherches computationnelles futures.