HyperAIHyperAI
il y a 2 mois

MoNoise : Modélisation du bruit à l'aide d'un système de normalisation modulaire

Rob van der Goot; Gertjan van Noord
MoNoise : Modélisation du bruit à l'aide d'un système de normalisation modulaire
Résumé

Nous proposons MoNoise : un modèle de normalisation axé sur la généralisabilité et l'efficacité, conçu pour être facilement réutilisable et adaptable. La normalisation est la tâche qui consiste à traduire des textes d'un domaine non canonique vers un domaine plus canonique ; dans notre cas, il s'agit de passer des données des médias sociaux à une langue standard. Notre modèle proposé repose sur une génération modulaire de candidats, où chaque module est responsable d'une action de normalisation différente. Les modules de génération les plus importants sont un système de correction orthographique et un module d'embeddings de mots. Selon la définition de la tâche de normalisation, une liste statique de recherche peut être cruciale pour les performances. Nous formons un classifieur par forêt aléatoire pour classer les candidats, ce qui permet une bonne généralisation à tous les différents types d'actions de normalisation. La plupart des caractéristiques utilisées pour le classement proviennent des modules de génération ; en plus de ces caractéristiques, les caractéristiques basées sur les N-grammes se révèlent être une source importante d'information. Nous montrons que MoNoise surpasses l'état de l'art sur différents benchmarks de normalisation pour l'anglais et le néerlandais, qui définissent tous la tâche de normalisation légèrement différemment.