HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

Bien que les systèmes modernes de reconnaissance d'entités nommées (NER) affichent des performances remarquables sur des jeux de données standards, leurs performances s'effondrent lorsqu'ils sont confrontés à des données bruitées. En particulier, la capitalisation constitue un signal puissant pour l'identification des entités dans de nombreuses langues, et même les modèles les plus avancés s'overfittent à cette caractéristique, conduisant à une baisse drastique de leur performance sur du texte non capitalisé. Dans ce travail, nous abordons le problème de la robustesse des systèmes NER face à des données présentant une mise en majuscule bruitée ou incertaine, en proposant une stratégie de pré-entraînement visant à prédire la capitalisation dans le texte, ou « truecaser », en exploitant des données non étiquetées. Le truecaser pré-entraîné est intégré à un modèle standard BiLSTM-CRF pour la NER en ajoutant les distributions de sortie aux embeddings de caractères. Sur plusieurs jeux de données couvrant des domaines et des niveaux de qualité de capitalisation variés, nous démontrons que notre nouveau modèle améliore significativement les performances sur du texte non capitalisé, y compris en apportant une valeur ajoutée aux embeddings BERT non capitalisés. Notre méthode atteint un nouveau record sur le jeu de données de la tâche partagée WNUT17.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing | Articles | HyperAI