Verdünnung von Transformer-Modellen durch trainierbare Repräsentationspooling

Wir schlagen eine neuartige Methode vor, um die Aufmerksamkeit im Transformer-Modell zu verdünnen, indem wir während des Trainingsprozesses lernen, die informativsten Token-Darstellungen auszuwählen. Dies ermöglicht es, sich auf die task-spezifischen Teile der Eingabe zu konzentrieren. Durch einen robusten, trainierbaren Top-$k$-Operator wurde die quadratische Zeit- und Speicherkomplexität auf sublineare reduziert. Unsere Experimente bei einer anspruchsvollen Aufgabe zur Zusammenfassung langer Dokumente zeigen, dass sogar unsere einfache Baseline vergleichbare Ergebnisse mit dem aktuellen State-of-the-Art (SOTA) erzielt. Mit trainierbarem Pooling können wir diese Spitzenqualität beibehalten und gleichzeitig das Training um den Faktor 1,8 beschleunigen, die Inferenz um den Faktor 4,5 und den Decoder bis zu 13-mal recheneffizienter gestalten.