Kernels GPU pour les poids creux par blocs
Nous mettons désormais à disposition des noyaux GPU fortement optimisés pour une classe de réseaux neuronaux sous-étudiée : les architectures comportant des poids à structure bloc-creuse. Ces noyaux permettent une évaluation et une différenciation efficaces des couches linéaires, y compris les couches de convolution, avec des motifs de sparsité bloc flexible dans la matrice de poids. Nous constatons que, selon le degré de sparsité, ces noyaux peuvent être plusieurs ordres de grandeur plus rapides que les solutions disponibles les plus performantes, telles que cuBLAS. En utilisant ces noyaux, nous améliorons les résultats actuels de l’état de l’art en analyse de sentiment textuel ainsi qu’en modélisation générative de texte et d’images. En rendant ces noyaux accessibles sous licence open source, nous souhaitons stimuler davantage l’avancement dans la conception de modèles et d’algorithmes.