SqueezeBERT : Que peut l'informatique visuelle enseigner au traitement du langage naturel sur les réseaux neuronaux efficaces ?

Les êtres humains lisent et écrivent des centaines de milliards de messages chaque jour. Par ailleurs, grâce à la disponibilité de grands jeux de données, à la puissance de calcul accrue et à l’amélioration des modèles de réseaux neuronaux, la technologie de traitement du langage naturel (NLP) a fait des progrès significatifs dans la compréhension, la correction orthographique et l’organisation de ces messages. Il existe donc une opportunité majeure d’exploiter l’NLP dans de nombreuses applications afin d’aider les utilisateurs du web, les réseaux sociaux et les entreprises. En particulier, nous considérons les smartphones et autres appareils mobiles comme des plateformes cruciales pour déployer à grande échelle des modèles NLP. Toutefois, les modèles actuels de réseaux neuronaux NLP hautement précis, tels que BERT et RoBERTa, sont extrêmement coûteux en termes de calcul : BERT-base, par exemple, nécessite 1,7 seconde pour classifier un extrait de texte sur un smartphone Pixel 3. Dans ce travail, nous observons que des méthodes telles que les convolutions groupées ont permis des accélérations importantes dans les réseaux de vision par ordinateur, mais que de nombreuses de ces techniques n’ont pas encore été adoptées par les concepteurs de modèles NLP. Nous démontrons comment remplacer plusieurs opérations au sein des couches d’attention auto-attention par des convolutions groupées, et nous utilisons cette approche dans une nouvelle architecture de réseau appelée SqueezeBERT, qui s’exécute 4,3 fois plus vite que BERT-base sur un Pixel 3 tout en atteignant une précision compétitive sur le jeu de tests GLUE. Le code de SqueezeBERT sera publié.