SubRegWeigh : Une pondération d'annotation efficace et efficiente avec la régularisation sous-motale

Les jeux de données en traitement du langage naturel (NLP) peuvent toujours contenir des erreurs d'annotation, même lorsqu'ils sont annotés manuellement. Les chercheurs ont tenté de développer des méthodes pour réduire automatiquement l'effet négatif des erreurs dans les jeux de données. Cependant, les méthodes existantes sont laborieuses car elles nécessitent de nombreux modèles entraînés pour détecter les erreurs. Cet article propose une méthode qui économise du temps en utilisant une technique de tokenisation appelée régularisation sous-mot (subword regularization) pour simuler plusieurs modèles de détection d'erreurs. Notre méthode proposée, SubRegWeigh, peut effectuer le pondérage des annotations quatre à cinq fois plus rapidement que la méthode existante. De plus, SubRegWeigh a amélioré les performances dans les tâches de classification de documents et de reconnaissance d'entités nommées. Dans des expériences avec des étiquettes pseudo-erronées, SubRegWeigh identifie clairement ces étiquettes comme des erreurs d'annotation. Notre code est disponible sur https://github.com/4ldk/SubRegWeigh .