Reformer: Der effiziente Transformer

Große Transformer-Modelle erreichen regelmäßig state-of-the-art-Ergebnisse bei einer Vielzahl von Aufgaben, doch deren Training kann besonders bei langen Sequenzen prohibitiv kostspielig sein. Wir stellen zwei Techniken vor, die die Effizienz von Transformers verbessern. Erstens ersetzen wir das Dot-Product-Attention durch ein Verfahren, das locality-sensitive Hashing nutzt, wodurch die Komplexität von O($L^2$) auf O($L\log L$) gesenkt wird, wobei $L$ die Länge der Sequenz bezeichnet. Zweitens verwenden wir reversible Residual-Layers anstelle der herkömmlichen Residual-Verbindungen, wodurch die Speicherung von Aktivierungen während des Trainings nur einmal statt $N$-mal erfolgt, wobei $N$ die Anzahl der Schichten ist. Das resultierende Modell, der Reformer, erzielt Leistungen, die mit denen von klassischen Transformer-Modellen vergleichbar sind, ist jedoch deutlich speichereffizienter und bei langen Sequenzen erheblich schneller.