Big Bird: Transformers für längere Sequenzen

Transformers-basierte Modelle wie BERT gehören zu den erfolgreichsten tiefen Lernmodellen für die natürliche Sprachverarbeitung (NLP). Leider weist eine ihrer zentralen Einschränkungen eine quadratische Abhängigkeit (insbesondere hinsichtlich des Speicherverbrauchs) von der Sequenzlänge auf, bedingt durch ihre vollständige Aufmerksamkeitsmechanik. Um dies zu beheben, schlagen wir BigBird vor, einen sparsamen Aufmerksamkeitsmechanismus, der diese quadratische Abhängigkeit auf linear reduziert. Wir zeigen, dass BigBird eine universelle Approximatorin von Sequenzfunktionen ist und turingvollständig ist, wodurch diese Eigenschaften des quadratischen, vollständigen Aufmerksamkeitsmodells bewahrt bleiben. Gleichzeitig offenbart unsere theoretische Analyse einige Vorteile von $O(1)$ globalen Token (wie CLS), die im Rahmen des sparsen Aufmerksamkeitsmechanismus die gesamte Sequenz beobachten. Der vorgeschlagene sparsame Aufmerksamkeitsansatz ermöglicht die Verarbeitung von Sequenzen bis zu achtmal länger als zuvor mit vergleichbarer Hardware möglich war. Als Folge der Fähigkeit, längere Kontexte zu verarbeiten, verbessert BigBird die Leistung erheblich bei verschiedenen NLP-Aufgaben wie Fragenbeantwortung und Zusammenfassung. Zudem schlagen wir neuartige Anwendungen auf Genomdaten vor.