HyperAIHyperAI

Command Palette

Search for a command to run...

SubRegWeigh : Une pondération d'annotation efficace et efficiente avec la régularisation sous-motale

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

Résumé

Les jeux de données en traitement du langage naturel (NLP) peuvent toujours contenir des erreurs d'annotation, même lorsqu'ils sont annotés manuellement. Les chercheurs ont tenté de développer des méthodes pour réduire automatiquement l'effet négatif des erreurs dans les jeux de données. Cependant, les méthodes existantes sont laborieuses car elles nécessitent de nombreux modèles entraînés pour détecter les erreurs. Cet article propose une méthode qui économise du temps en utilisant une technique de tokenisation appelée régularisation sous-mot (subword regularization) pour simuler plusieurs modèles de détection d'erreurs. Notre méthode proposée, SubRegWeigh, peut effectuer le pondérage des annotations quatre à cinq fois plus rapidement que la méthode existante. De plus, SubRegWeigh a amélioré les performances dans les tâches de classification de documents et de reconnaissance d'entités nommées. Dans des expériences avec des étiquettes pseudo-erronées, SubRegWeigh identifie clairement ces étiquettes comme des erreurs d'annotation. Notre code est disponible sur https://github.com/4ldk/SubRegWeigh .


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp