Hierarchische Transformers sind effizientere Sprachmodelle

Transformer-Modelle erzielen beeindruckende Ergebnisse bei vielen Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP) und der Sequenzmodellierung. Bemerkenswert ist, dass Transformer lange Sequenzen verarbeiten können, was ihnen ermöglicht, lange, kohärente Ausgaben zu generieren – beispielsweise ganze Absätze durch GPT-3 oder gut strukturierte Bilder durch DALL-E. Diese großen Sprachmodelle sind beeindruckend, gleichzeitig jedoch äußerst ineffizient und kostspielig, was ihre Anwendbarkeit und Zugänglichkeit einschränkt. Wir vermuten, dass eine explizite hierarchische Architektur der Schlüssel für Transformer ist, die lange Sequenzen effizient verarbeiten können. Um diese These zu überprüfen, untersuchen wir zunächst verschiedene Ansätze zur Downsampling- und Upsampling von Aktivierungen in Transformer-Modellen, um eine hierarchische Struktur zu schaffen. Anschließend nutzen wir die leistungsstärksten Down- und Upsampling-Layer, um Hourglass – ein hierarchisches Transformer-Sprachmodell – zu entwickeln. Hourglass erreicht bei gleichem Rechenaufwand eine bessere Leistung als das herkömmliche Transformer-Baseline und kann vergleichbare Ergebnisse effizienter erzielen. Insbesondere erreicht Hourglass eine neue State-of-the-Art-Leistung bei der ImageNet32-Generierungsaufgabe und verbessert die Effizienz der Sprachmodellierung auf dem weit verbreiteten enwik8-Benchmark.