Sur le rôle du prétraitement du texte dans les architectures de réseaux neuronaux : une étude d'évaluation sur la catégorisation du texte et l'analyse des sentiments

Le prétraitement du texte est souvent la première étape dans le pipeline d'un système de Traitement Automatique des Langues Naturelles (TALN), avec un potentiel impact sur ses performances finales. Malgré son importance, le prétraitement du texte n'a pas reçu beaucoup d'attention dans la littérature sur l'apprentissage profond. Dans cet article, nous examinons l'impact de décisions simples de prétraitement du texte (en particulier la tokenisation, la lemmatisation, la mise en minuscules et le regroupement des mots composés) sur les performances d'un classifieur neuronal textuel standard. Nous menons une évaluation approfondie sur des benchmarks standards issus de la catégorisation du texte et de l'analyse de sentiments. Bien que nos expériences montrent qu'une tokenisation simple du texte d'entrée est généralement suffisante, elles mettent également en lumière des variations importantes entre les techniques de prétraitement. Cela révèle l'importance de prêter attention à cette étape souvent négligée du pipeline, en particulier lors de la comparaison de différents modèles. Enfin, notre évaluation fournit des indications sur les meilleures pratiques de prétraitement pour l'entraînement des plongements lexicaux (word embeddings).