HyperAIHyperAI

Command Palette

Search for a command to run...

CamemBERT : un modèle linguistique français savoureux

Louis Martin Benjamin Muller Pedro Javier Ortiz Suárez Yoann Dupont Laurent Romary Éric Villemonte de la Clergerie Djamé Seddah Benoît Sagot

Résumé

Les modèles préentraînés de langage sont désormais omniprésents en traitement du langage naturel. Malgré leurs succès, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur une concaténation de données dans plusieurs langues. Cela limite fortement leur utilisation pratique dans toutes les langues autres que l’anglais. Dans cet article, nous étudions la faisabilité de l’entraînement de modèles de langage monolingues basés sur l’architecture Transformer pour d’autres langues, en prenant le français comme exemple, et évaluons nos modèles sur des tâches de segmentation morphosyntaxique, d’analyse syntaxique, de reconnaissance d’entités nommées et d’inférence linguistique naturelle. Nous montrons que l’utilisation de données extraites à partir du web est préférable à celle de données issues de Wikipedia. Plus surprenant encore, nous démontrons qu’un jeu de données web relativement petit (4 Go) permet d’obtenir des résultats aussi bons que ceux obtenus avec des jeux de données plus volumineux (130 Go ou plus). Notre meilleur modèle, CamemBERT, atteint ou dépasse l’état de l’art sur les quatre tâches descendantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp