HyperAIHyperAI

Command Palette

Search for a command to run...

RobBERT : un modèle de langage basé sur RoBERTa pour le néerlandais

Pieter Delobelle Thomas Winters Bettina Berendt

Résumé

Les modèles linguistiques préentraînés ont dominé le domaine du traitement automatique du langage au cours des dernières années, conduisant à des progrès significatifs sur de nombreuses tâches complexes de traitement du langage naturel. L’un des modèles préentraînés les plus emblématiques est BERT, disponible à la fois en version anglaise et multilingue. Bien que BERT multilingue se comporte bien sur de nombreuses tâches, des études récentes montrent que les modèles BERT entraînés sur une seule langue surpassent nettement la version multilingue. L’entraînement d’un modèle BERT dédié au néerlandais présente donc un grand potentiel pour une large gamme de tâches de traitement du langage naturel en néerlandais. Alors que les approches antérieures ont utilisé des implémentations antérieures de BERT pour entraîner une version néerlandaise de BERT, nous avons adopté RoBERTa, une variante robuste et optimisée de BERT, afin d’entraîner un modèle linguistique néerlandais baptisé RobBERT. Nous avons évalué ses performances sur diverses tâches, ainsi que l’importance de la taille des jeux de données utilisés pour le fine-tuning. Nous avons également examiné l’importance des tokenizers spécifiques à la langue et la question de l’équité du modèle. Nos résultats montrent que RobBERT améliore les résultats de l’état de l’art sur plusieurs tâches, et s’impose particulièrement en dépassant nettement les autres modèles lorsqu’il est confronté à des jeux de données de petite taille. Ces résultats indiquent qu’il s’agit d’un modèle préentraîné puissant pour une grande variété de tâches linguistiques en néerlandais. Les modèles préentraînés et fine-tunés sont rendus publics afin de soutenir le développement ultérieur des applications néerlandaises de traitement du langage naturel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp