MobileBERT: ein kompakter, aufgabenunabhängiger BERT für ressourcenbeschränkte Geräte

Natürliche Sprachverarbeitung (Natural Language Processing, NLP) hat in letzter Zeit erheblichen Erfolg durch den Einsatz riesiger vortrainierter Modelle mit Hunderten von Millionen Parametern erzielt. Diese Modelle leiden jedoch unter großem Speicherbedarf und hoher Latenz, weshalb sie nicht auf ressourcenbeschränkten mobilen Geräten eingesetzt werden können. In diesem Paper stellen wir MobileBERT vor, ein Ansatz zur Kompression und Beschleunigung des populären BERT-Modells. Ähnlich wie das ursprüngliche BERT ist MobileBERT aufgabenunabhängig, d. h., es kann über einfaches Fine-Tuning generisch für verschiedene nachgeschaltete NLP-Aufgaben eingesetzt werden. Grundsätzlich handelt es sich bei MobileBERT um eine kompakte Variante von BERT_LARGE, die jedoch über sogenannte Bottleneck-Strukturen sowie eine sorgfältig abgestimmte Balance zwischen Self-Attention- und Feed-Forward-Netzwerken verfügt. Zur Trainingsphase von MobileBERT erstellen wir zunächst ein speziell entworfenes Lehrmodell – ein umgekehrtes Bottleneck-Element enthaltendes BERT_LARGE-Modell. Anschließend führen wir ein Wissenstransfer-Verfahren von diesem Lehrmodell auf MobileBERT durch. Empirische Studien zeigen, dass MobileBERT 4,3-mal kleiner und 5,5-mal schneller als BERT_BASE ist, während gleichzeitig konkurrenzfähige Ergebnisse auf etablierten Benchmarks erzielt werden. Auf den Aufgaben der natürlichen Sprachinferenz im GLUE-Dataset erreicht MobileBERT eine GLUE-Score von 77,7 (0,6 unterhalb von BERT_BASE) und eine Latenz von 62 ms auf einem Pixel 4-Handy. Auf der Fragebeantwortungsaufgabe SQuAD v1.1/v2.0 erzielt MobileBERT eine Dev-F1-Score von 90,0/79,2 (1,5/2,1 höher als BERT_BASE).