Approches neuronales supervisées et non supervisées pour l'analyse de la lisibilité du texte

Nous présentons un ensemble de nouvelles approches neuronales supervisées et non supervisées pour déterminer la lisibilité des documents. Dans le cadre non supervisé, nous utilisons des modèles de langage neuronaux, tandis que dans le cadre supervisé, trois architectures de classification neuronale différentes sont testées. Nous montrons que l'approche neuronale non supervisée proposée est robuste, transférable entre les langues et permet une adaptation à une tâche de lisibilité spécifique et à un ensemble de données. Par une comparaison systématique de plusieurs architectures neuronales sur plusieurs ensembles de données de lisibilité étiquetés, tant de référence que nouveaux, dans deux langues, cette étude offre également une analyse exhaustive des différentes approches neuronales à la classification de la lisibilité. Nous exposons leurs forces et leurs faiblesses, comparons leur performance aux approches actuelles d'avant-garde en matière de classification de la lisibilité, qui reposent encore dans la plupart des cas sur un ingénierie extensive des caractéristiques, et proposons des possibilités d'amélioration.