il y a 6 mois

Résumé

Bien que les systèmes modernes de reconnaissance d'entités nommées (NER) affichent des performances remarquables sur des jeux de données standards, leurs performances s'effondrent lorsqu'ils sont confrontés à des données bruitées. En particulier, la capitalisation constitue un signal puissant pour l'identification des entités dans de nombreuses langues, et même les modèles les plus avancés s'overfittent à cette caractéristique, conduisant à une baisse drastique de leur performance sur du texte non capitalisé. Dans ce travail, nous abordons le problème de la robustesse des systèmes NER face à des données présentant une mise en majuscule bruitée ou incertaine, en proposant une stratégie de pré-entraînement visant à prédire la capitalisation dans le texte, ou « truecaser », en exploitant des données non étiquetées. Le truecaser pré-entraîné est intégré à un modèle standard BiLSTM-CRF pour la NER en ajoutant les distributions de sortie aux embeddings de caractères. Sur plusieurs jeux de données couvrant des domaines et des niveaux de qualité de capitalisation variés, nous démontrons que notre nouveau modèle améliore significativement les performances sur du texte non capitalisé, y compris en apportant une valeur ajoutée aux embeddings BERT non capitalisés. Notre méthode atteint un nouveau record sur le jeu de données de la tâche partagée WNUT17.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Du Langage Naturel

Apprentissage Profond

Transformer

Domaine De Recherche

Approche/Framework

Traitement Du Langage Naturel

Tâche

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Du Langage Naturel

Apprentissage Profond

Transformer

Domaine De Recherche

Approche/Framework

Traitement Du Langage Naturel

Tâche

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing

Stephen Mayhew Nitish Gupta Dan Roth

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters