HyperAIHyperAI

Command Palette

Search for a command to run...

MoNoise : Modélisation du bruit à l'aide d'un système de normalisation modulaire

Rob van der Goot Gertjan van Noord

Résumé

Nous proposons MoNoise : un modèle de normalisation axé sur la généralisabilité et l'efficacité, conçu pour être facilement réutilisable et adaptable. La normalisation est la tâche qui consiste à traduire des textes d'un domaine non canonique vers un domaine plus canonique ; dans notre cas, il s'agit de passer des données des médias sociaux à une langue standard. Notre modèle proposé repose sur une génération modulaire de candidats, où chaque module est responsable d'une action de normalisation différente. Les modules de génération les plus importants sont un système de correction orthographique et un module d'embeddings de mots. Selon la définition de la tâche de normalisation, une liste statique de recherche peut être cruciale pour les performances. Nous formons un classifieur par forêt aléatoire pour classer les candidats, ce qui permet une bonne généralisation à tous les différents types d'actions de normalisation. La plupart des caractéristiques utilisées pour le classement proviennent des modules de génération ; en plus de ces caractéristiques, les caractéristiques basées sur les N-grammes se révèlent être une source importante d'information. Nous montrons que MoNoise surpasses l'état de l'art sur différents benchmarks de normalisation pour l'anglais et le néerlandais, qui définissent tous la tâche de normalisation légèrement différemment.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp