HyperAIHyperAI

Command Palette

Search for a command to run...

DaCy : Un cadre unifié pour le traitement automatique du langage danois

Kenneth Enevoldsen Lasse Hansen Kristoffer Nielbo

Résumé

En quelques années, le traitement automatique du langage naturel (TAL) pour le danois a connu des progrès considérables grâce à l’ajout de nombreux nouveaux jeux de données et modèles. Toutefois, à l’heure actuelle, aucun cadre cohérent n’existe pour l’application des modèles d’avant-garde au danois. Nous présentons DaCy : un cadre unifié pour le TAL en danois, basé sur SpaCy. DaCy repose sur des modèles multitâches efficaces, qui atteignent des performances de pointe en reconnaissance d’entités nommées, en étiquetage morphosyntaxique et en analyse syntaxique. Le cadre DaCy inclut des outils facilitant l’intégration de modèles existants, tels que ceux dédiés à la détection de polarité, d’émotions ou de subjectivité. En outre, nous menons une série d’expérimentations visant à évaluer les biais et la robustesse des pipelines de TAL danois, en utilisant une augmentation du jeu de tests DaNE. DaCy large se distingue favorablement, notamment par sa robustesse face aux longues longueurs d’entrée ainsi qu’aux variations et erreurs orthographiques. Tous les modèles, à l’exception de DaCy large, présentent des biais significatifs liés à l’ethnicité, tandis que seul Polyglot montre un biais significatif lié au genre. Nous soutenons que, pour les langues disposant de jeux de référence limités, l’augmentation des données peut s’avérer particulièrement utile pour obtenir des estimations de performance plus réalistes et plus fines. Nous proposons une série d’outils d’augmentation comme une première étape vers une évaluation plus approfondie des modèles linguistiques pour les langues à ressources faibles ou moyennes, et encourageons le développement ultérieur dans cette direction.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp