Distiller les connaissances spécifiques à la tâche de BERT dans des réseaux neuronaux simples

Dans la littérature sur le traitement automatique des langues naturelles, les réseaux de neurones deviennent de plus en plus profonds et complexes. Le récent exemple emblématique de cette tendance est le modèle de représentation linguistique profonde, qui inclut BERT, ELMo et GPT. Ces avancées ont conduit à l'idée que les réseaux de neurones précédents, moins profonds, pour la compréhension du langage sont obsolètes. Cependant, dans cet article, nous démontrons qu'il est possible de rendre compétitives des architectures neuronales élémentaires et légères sans modifier leur structure, sans données d'entraînement externes ni caractéristiques d'entrée supplémentaires. Nous proposons de distiller les connaissances issues de BERT, un modèle de représentation linguistique d'avant-garde, dans un BiLSTM mono-couche ainsi que sa version siamoise pour les tâches impliquant des paires de phrases. Sur plusieurs jeux de données concernant la reformulation, l'inférence linguistique et la classification des sentiments, nous obtenons des résultats comparables à ceux d'ELMo tout en utilisant environ 100 fois moins de paramètres et en réduisant le temps d'inférence par 15.Note : - "BiLSTM" est traduit par "BiLSTM" car c'est un acronyme couramment utilisé en français également.- "siamese counterpart" est traduit par "version siamoise" pour rester proche du terme technique utilisé en français.- Les noms propres comme BERT, ELMo et GPT sont conservés tels quels.