Long Range Arena: Eine Benchmark für effiziente Transformers

Transformers skaliert nicht sehr gut auf lange Sequenzlängen, hauptsächlich aufgrund der quadratischen Komplexität der Selbst-Attention. In den letzten Monaten wurden zahlreiche effiziente und schnelle Transformer-Modelle vorgeschlagen, um dieses Problem anzugehen, wobei sie häufig eine überlegene oder vergleichbare Modellqualität im Vergleich zu herkömmlichen Transformer-Modellen behaupten. Bis heute besteht jedoch kein einheitlich anerkannter Konsens darüber, wie diese Klasse von Modellen evaluiert werden sollte. Zudem erschweren inkonsistente Benchmarking-Ergebnisse über eine breite Palette von Aufgaben und Datensätzen die Beurteilung der relativen Modellqualität unter zahlreichen Modellen. In diesem Paper wird ein systematischer und einheitlicher Benchmark, LRA, vorgestellt, der speziell darauf abzielt, die Modellqualität unter langen Kontext-Szenarien zu bewerten. Unser Benchmark umfasst eine Reihe von Aufgaben mit Sequenzen von 1.000 bis 16.000 Tokens und deckt eine Vielzahl von Datentypen und Modalitäten ab, wie Text, natürliche und synthetische Bilder sowie mathematische Ausdrücke, die jeweils ähnliche, strukturelle und visuell-räumliche Schlussfolgerungen erfordern. Wir evaluieren systematisch zehn etablierte Long-Range-Transformer-Modelle (Reformers, Linformers, Linear Transformers, Sinkhorn Transformers, Performers, Synthesizers, Sparse Transformers und Longformers) anhand unseres neu vorgeschlagenen Benchmark-Suites. LRA eröffnet neue Wege zur besseren Verständnis dieser Klasse effizienter Transformer-Modelle, fördert zukünftige Forschung in dieser Richtung und stellt neue herausfordernde Aufgaben bereit. Der Benchmark-Code wird unter https://github.com/google-research/long-range-arena veröffentlicht.