HyperAIHyperAI
vor 12 Tagen

Sparsifizierung von Transformer-Modellen mit trainierbarem Repräsentationspooling

{Anonymous}
Abstract

Wir schlagen eine neue Methode zur Sparsifizierung der Aufmerksamkeit im Transformer-Modell vor, indem während des Trainings gelernt wird, die informativsten Token-Repräsentationen auszuwählen, wodurch der Fokus auf die aufgabenbezogenen Teile der Eingabe gelenkt wird. Durch einen robusten, trainierbaren Top-$k$-Operator wurde die quadratische Zeit- und Speicherkomplexität auf sublineare Komplexität reduziert. Unsere Experimente auf einer anspruchsvollen Aufgabe zur Zusammenfassung langer Dokumente zeigen, dass bereits unsere einfache Baseline mit dem aktuellen State-of-the-Art vergleichbar ist. Mit trainierbarem Pooling lässt sich dabei die hohe Qualität beibehalten, während die Trainingsgeschwindigkeit um den Faktor 1,8, die Inferenzgeschwindigkeit um den Faktor 4,5 und die rechnerische Effizienz im Dekoder bis zu dem Faktor 13 steigt.

Sparsifizierung von Transformer-Modellen mit trainierbarem Repräsentationspooling | Neueste Forschungsarbeiten | HyperAI