Lite Transformer mit Long-Short Range Attention

Transformer ist in der natürlichen Sprachverarbeitung (z. B. maschinelle Übersetzung, Fragebeantwortung) allgegenwärtig geworden; doch er erfordert enorme Rechenressourcen, um hohe Leistung zu erzielen, was ihn für mobile Anwendungen ungeeignet macht, die durch eng begrenzte Hardware-Ressourcen und Batteriekapazität stark eingeschränkt sind. In diesem Paper präsentieren wir eine effiziente, für mobile Geräte geeignete Architektur für NLP, namens Lite Transformer, um mobile NLP-Anwendungen auf Edge-Geräten zu ermöglichen. Das zentrale Bauelement ist die Long-Short Range Attention (LSRA), bei der eine Gruppe von Kopf-Attention-Head-Elementen auf die Modellierung lokaler Kontexte (durch Faltung) spezialisiert ist, während eine andere Gruppe auf die Modellierung langstreckiger Beziehungen (durch Attention) fokussiert ist. Diese Spezialisierung führt zu konsistenten Verbesserungen gegenüber dem herkömmlichen Transformer auf drei etablierten Sprachaufgaben: maschinelle Übersetzung, abstraktive Zusammenfassung und Sprachmodellierung. Unter ressourcenbeschränkten Bedingungen (500 M / 100 M MACs) übertrifft Lite Transformer den Transformer bei WMT’14 Englisch-Französisch um 1,2 bzw. 1,7 BLEU. Lite Transformer reduziert die Rechenanforderungen des Transformer-Base-Modells um das 2,5-Fache bei einer geringen Degradierung der BLEU-Score um 0,3. In Kombination mit Pruning und Quantisierung wird die Modellgröße von Lite Transformer zusätzlich um den Faktor 18,2 komprimiert. Für die Sprachmodellierung erreicht Lite Transformer bei etwa 500 M MACs eine um 1,8 niedrigere Perplexität im Vergleich zum Transformer. Insbesondere übertrifft Lite Transformer den auf AutoML basierenden Evolved Transformer um 0,5 höhere BLEU-Werte im mobilen NLP-Setting – ohne die kostenintensive Architektursuche, die mehr als 250 GPU-Jahre erfordert. Der Quellcode ist unter https://github.com/mit-han-lab/lite-transformer verfügbar.