ALBERT : Une Version Allégée de BERT pour l'Apprentissage Auto-supervisé des Représentations Linguistiques

L'augmentation de la taille des modèles lors de l'apprentissage non supervisé des représentations linguistiques naturelles améliore souvent les performances sur les tâches en aval. Cependant, à un certain stade, d'autres augmentations de modèle deviennent plus difficiles en raison des limitations de mémoire des GPU/TPU et des temps d'entraînement plus longs. Pour résoudre ces problèmes, nous présentons deux techniques de réduction des paramètres visant à diminuer la consommation de mémoire et à accélérer l'entraînement de BERT. Des preuves empiriques exhaustives montrent que nos méthodes proposées conduisent à des modèles qui se développent beaucoup mieux par rapport au BERT original. Nous utilisons également une perte auto-supervisée axée sur la modélisation de la cohérence inter-sentences, et démontrons qu'elle aide constamment les tâches en aval avec des entrées multi-sentences. En conséquence, notre meilleur modèle établit de nouveaux résultats d'état de l'art sur les benchmarks GLUE, RACE et SQuAD tout en ayant moins de paramètres que le BERT-large. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/google-research/ALBERT.