Comment entraîner BERT avec un budget académique

Bien que les grands modèles linguistiques du type BERT soient largement utilisés en traitement du langage naturel (NLP), leur pré-entraînement est considéré comme un luxe que seuls quelques laboratoires industriels bien financés peuvent se permettre. Comment entraîner de tels modèles avec un budget plus modeste ? Nous proposons une méthode permettant de pré-entraîner un modèle linguistique masqué en 24 heures à l’aide d’un seul serveur de calcul profond de basse gamme. Nous démontrons qu’en combinant des optimisations logicielles, des choix architecturaux judicieux et un réglage précis des hyperparamètres, il est possible de produire des modèles compétitifs avec BERT-base sur les tâches du benchmark GLUE, tout en réduisant considérablement le coût initial d’entraînement.