Command Palette
Search for a command to run...
GPU-Kerne für blockspärliche Gewichte
GPU-Kerne für blockspärliche Gewichte
Alec Radford and Diederik P. Kingma Scott Gray
Zusammenfassung
Wir veröffentlichen hochgradig optimierte GPU-Kerne für eine untererforschte Klasse von neuronalen Netzarchitekturen: Netze mit blocksparsen Gewichten. Die Kerne ermöglichen eine effiziente Auswertung und Differentiation linearer Schichten, einschließlich konvolutionaler Schichten, mit flexibel konfigurierbaren Block-Sparsity-Mustern in der Gewichtsmatrix. Je nach Sparsity-Grad können diese Kerne um Größenordnungen schneller laufen als die derzeit besten verfügbaren Alternativen wie cuBLAS. Mit Hilfe dieser Kerne erreichen wir eine Verbesserung der Stand der Technik bei der Analyse von Textstimmungen sowie bei der generativen Modellierung von Text und Bildern. Durch die Open-Source-Veröffentlichung unserer Kerne zielen wir darauf ab, weitere Fortschritte in der Modell- und Algorithmenentwicklung zu fördern.