vor 11 Tagen

CoLT5: Schnellere Long-Range-Transformers mit bedingter Berechnung

Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai

Details der Forschungsarbeit anzeigen

CoLT5: Schnellere Long-Range-Transformers mit bedingter Berechnung

Abstract

Viele Aufgaben im Bereich des Natural Language Processing profitieren von langen Eingaben, doch die Verarbeitung langer Dokumente mit Transformers ist kostspielig – nicht nur aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen, sondern auch aufgrund der Anwendung von Feedforward- und Projektionsschichten auf jeden Token. Doch nicht alle Tokens sind gleich wichtig, insbesondere bei längeren Dokumenten. Wir stellen CoLT5 vor, ein Transformer-Modell für lange Eingaben, das auf dieser Intuition basiert und bedingte Berechnung einsetzt, um mehr Ressourcen den bedeutenderen Tokens in sowohl den Feedforward- als auch den Aufmerksamkeitschichten zuzuteilen. Wir zeigen, dass CoLT5 gegenüber LongT5 eine deutlich bessere Leistung erzielt, bei wesentlich schnellerem Training und Inferenz, und die derzeit beste Leistung (SOTA) auf dem langen-Eingabe-SCROLLS-Benchmark erreicht. Darüber hinaus kann CoLT5 extrem lange Eingaben effektiv und handhabbar nutzen, wobei signifikante Verbesserungen bis zu einer Eingabelänge von 64k erzielt werden.