Sur l'importance du volume des données d'apprentissage préalable pour les modèles linguistiques compacts

Les avancées récentes en modélisation du langage ont conduit à des modèles d’état de l’art hautement intensifs en calcul et exigeants en ressources. Dans une optique de pratiques durables, nous étudions l’impact du volume des données d’entraînement préalable sur des modèles linguistiques compacts. Plusieurs modèles basés sur BERT sont entraînés sur des quantités croissantes de texte français. En effectuant un ajustage fin sur le jeu de données français de question-réponse (FQuAD), nous observons que des modèles performants peuvent être obtenus avec aussi peu que 100 Mo de texte. Par ailleurs, nous démontrons qu’au-delà d’un seuil critique de faible quantité de données d’entraînement préalable, une étape intermédiaire d’entraînement préalable sur un corpus spécifique à la tâche ne conduit pas à des améliorations significatives.