CoLT5: Schnellere Long-Range-Transformers mit bedingter Berechnung

Viele Aufgaben im Bereich des Natural Language Processing profitieren von langen Eingaben, doch die Verarbeitung langer Dokumente mit Transformers ist kostspielig – nicht nur aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen, sondern auch aufgrund der Anwendung von Feedforward- und Projektionsschichten auf jeden Token. Doch nicht alle Tokens sind gleich wichtig, insbesondere bei längeren Dokumenten. Wir stellen CoLT5 vor, ein Transformer-Modell für lange Eingaben, das auf dieser Intuition basiert und bedingte Berechnung einsetzt, um mehr Ressourcen den bedeutenderen Tokens in sowohl den Feedforward- als auch den Aufmerksamkeitschichten zuzuteilen. Wir zeigen, dass CoLT5 gegenüber LongT5 eine deutlich bessere Leistung erzielt, bei wesentlich schnellerem Training und Inferenz, und die derzeit beste Leistung (SOTA) auf dem langen-Eingabe-SCROLLS-Benchmark erreicht. Darüber hinaus kann CoLT5 extrem lange Eingaben effektiv und handhabbar nutzen, wobei signifikante Verbesserungen bis zu einer Eingabelänge von 64k erzielt werden.