HyperAIHyperAI
il y a 2 mois

Correction Orthographique avec Transformer Débruitant

Alex Kuznetsov; Hector Urdiales
Correction Orthographique avec Transformer Débruitant
Résumé

Nous présentons une nouvelle méthode pour effectuer la correction orthographique sur des chaînes de caractères courtes, telles que des requêtes de recherche ou des mots individuels. Au cœur de cette méthode se trouve une procédure pour générer des fautes de frappe artificielles qui suivent étroitement les schémas d'erreurs manifestés par les humains. Cette procédure est utilisée pour entraîner un modèle de correction orthographique basé sur une architecture transformer. Ce modèle est actuellement déployé dans la recherche de produits HubSpot. Nous montrons que notre approche pour la génération de fautes de frappe est supérieure à la pratique courante d'ajouter du bruit, qui ignore les schémas humains. Nous démontrons également comment notre approche peut être étendue à des contextes où les ressources sont limitées et entraînons des modèles de correction orthographique pour les langues arabe, grecque, russe et tswana, sans utiliser aucune donnée étiquetée.

Correction Orthographique avec Transformer Débruitant | Articles de recherche récents | HyperAI