SqueezeBERT: Was kann das Computer Vision der NLP über effiziente neuronale Netze beibringen?

Menschen lesen und schreiben täglich Hunderte von Milliarden von Nachrichten. Zudem hat die Verfügbarkeit großer Datensätze, leistungsstarker Rechensysteme und verbesserter neuronaler Netzwerkmodelle dazu geführt, dass die Technologie des Natural Language Processing (NLP) erhebliche Fortschritte bei der Verständnis, Korrektur und Organisation dieser Nachrichten erzielt hat. Daher besteht ein erhebliches Potenzial, NLP in zahlreichen Anwendungen einzusetzen, um Webnutzer, soziale Netzwerke und Unternehmen zu unterstützen. Insbesondere betrachten wir Smartphones und andere mobile Geräte als entscheidende Plattformen für die skalierbare Bereitstellung von NLP-Modellen. Allerdings sind heutige hochgenaue NLP-Neuronale Netze wie BERT und RoBERTa äußerst rechenintensiv; so benötigt BERT-base auf einem Pixel 3-Smartphone 1,7 Sekunden, um einen Textausschnitt zu klassifizieren. In dieser Arbeit stellen wir fest, dass Methoden wie gruppierte Faltungen bei neuronalen Netzwerken für die Bildverarbeitung erhebliche Geschwindigkeitssteigerungen ermöglicht haben, doch viele dieser Techniken wurden bisher von NLP-Netzwerkdesignern nicht übernommen. Wir zeigen, wie mehrere Operationen in Selbst-Attention-Schichten durch gruppierte Faltungen ersetzt werden können, und nutzen diese Technik in einer neuartigen Netzarchitektur namens SqueezeBERT, die auf dem Pixel 3 4,3-mal schneller läuft als BERT-base und dennoch konkurrenzfähige Genauigkeit auf dem GLUE-Testset erzielt. Der SqueezeBERT-Code wird veröffentlicht.