Sparsifizierung von Transformer-Modellen mit trainierbarem Repräsentationspooling
{Anonymous}
Abstract
Wir schlagen eine neue Methode zur Sparsifizierung der Aufmerksamkeit im Transformer-Modell vor, indem während des Trainings gelernt wird, die informativsten Token-Repräsentationen auszuwählen, wodurch der Fokus auf die aufgabenbezogenen Teile der Eingabe gelenkt wird. Durch einen robusten, trainierbaren Top-k-Operator wurde die quadratische Zeit- und Speicherkomplexität auf sublineare Komplexität reduziert. Unsere Experimente auf einer anspruchsvollen Aufgabe zur Zusammenfassung langer Dokumente zeigen, dass bereits unsere einfache Baseline mit dem aktuellen State-of-the-Art vergleichbar ist. Mit trainierbarem Pooling lässt sich dabei die hohe Qualität beibehalten, während die Trainingsgeschwindigkeit um den Faktor 1,8, die Inferenzgeschwindigkeit um den Faktor 4,5 und die rechnerische Effizienz im Dekoder bis zu dem Faktor 13 steigt.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| document-summarization-on-arxiv | DeepPyramidion | ROUGE-1: 47.15 |
| document-summarization-on-arxiv-summarization | DeepPyramidion | Rouge-2: 19.99 |
| text-summarization-on-arxiv | DeepPyramidion | ROUGE-1: 47.15 ROUGE-2: 19.99 |
| text-summarization-on-arxiv | Blockwise(baseline) | ROUGE-1: 46.85 ROUGE-2: 19.39 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.