HyperAIHyperAI
il y a 2 mois

Adaptation des modèles Sequence to Sequence pour la normalisation du texte dans les médias sociaux

Ismini Lourentzou; Kabir Manghnani; ChengXiang Zhai
Adaptation des modèles Sequence to Sequence pour la normalisation du texte dans les médias sociaux
Résumé

Les réseaux sociaux offrent une source abondante de données brutes précieuses, mais l'écriture informelle peut rapidement devenir un goulot d'étranglement pour de nombreuses tâches de traitement du langage naturel (NLP). Les outils prêts à l'emploi sont généralement formés sur des textes formels et ne peuvent pas traiter explicitement le bruit présent dans les courts messages en ligne. De plus, la variété des variations linguistiques fréquemment rencontrées présente plusieurs défis, même pour les humains qui peuvent avoir du mal à comprendre le sens de ces messages, en particulier lorsqu'ils contiennent des argot et des abréviations. La normalisation du texte vise à transformer le texte généré par les utilisateurs en ligne en une forme canonique. Les systèmes actuels de normalisation du texte s'appuient sur la similarité phonétique ou lexicale et sur des modèles de classification qui fonctionnent de manière locale. Nous soutenons que le traitement des informations contextuelles est crucial pour cette tâche et nous introduisons un modèle hybride d'encodeur-décodeur basé sur l'attention au niveau des mots et des caractères pour la normalisation du texte des réseaux sociaux, capable de servir comme étape préliminaire pour les applications NLP afin d'adapter aux textes bruyants présents sur les réseaux sociaux. Notre composant basé sur les caractères est formé sur des exemples adverses synthétiques conçus pour capturer les erreurs couramment trouvées dans le texte généré par les utilisateurs en ligne. Les expériences montrent que notre modèle dépasse les architectures neuronales conçues pour la normalisation du texte et atteint une performance comparable aux travaux les plus avancés dans ce domaine.