HyperAIHyperAI
il y a 11 jours

DaCy : Un cadre unifié pour le traitement automatique du langage danois

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
DaCy : Un cadre unifié pour le traitement automatique du langage danois
Résumé

En quelques années, le traitement automatique du langage naturel (TAL) pour le danois a connu des progrès considérables grâce à l’ajout de nombreux nouveaux jeux de données et modèles. Toutefois, à l’heure actuelle, aucun cadre cohérent n’existe pour l’application des modèles d’avant-garde au danois. Nous présentons DaCy : un cadre unifié pour le TAL en danois, basé sur SpaCy. DaCy repose sur des modèles multitâches efficaces, qui atteignent des performances de pointe en reconnaissance d’entités nommées, en étiquetage morphosyntaxique et en analyse syntaxique. Le cadre DaCy inclut des outils facilitant l’intégration de modèles existants, tels que ceux dédiés à la détection de polarité, d’émotions ou de subjectivité. En outre, nous menons une série d’expérimentations visant à évaluer les biais et la robustesse des pipelines de TAL danois, en utilisant une augmentation du jeu de tests DaNE. DaCy large se distingue favorablement, notamment par sa robustesse face aux longues longueurs d’entrée ainsi qu’aux variations et erreurs orthographiques. Tous les modèles, à l’exception de DaCy large, présentent des biais significatifs liés à l’ethnicité, tandis que seul Polyglot montre un biais significatif lié au genre. Nous soutenons que, pour les langues disposant de jeux de référence limités, l’augmentation des données peut s’avérer particulièrement utile pour obtenir des estimations de performance plus réalistes et plus fines. Nous proposons une série d’outils d’augmentation comme une première étape vers une évaluation plus approfondie des modèles linguistiques pour les langues à ressources faibles ou moyennes, et encourageons le développement ultérieur dans cette direction.

DaCy : Un cadre unifié pour le traitement automatique du langage danois | Articles de recherche récents | HyperAI