HyperAI

Abstract

Wir schlagen eine neue Methode zur Sparsifizierung der Aufmerksamkeit im Transformer-Modell vor, indem während des Trainings gelernt wird, die informativsten Token-Repräsentationen auszuwählen, wodurch der Fokus auf die aufgabenbezogenen Teile der Eingabe gelenkt wird. Durch einen robusten, trainierbaren Top- $k$ -Operator wurde die quadratische Zeit- und Speicherkomplexität auf sublineare Komplexität reduziert. Unsere Experimente auf einer anspruchsvollen Aufgabe zur Zusammenfassung langer Dokumente zeigen, dass bereits unsere einfache Baseline mit dem aktuellen State-of-the-Art vergleichbar ist. Mit trainierbarem Pooling lässt sich dabei die hohe Qualität beibehalten, während die Trainingsgeschwindigkeit um den Faktor 1,8, die Inferenzgeschwindigkeit um den Faktor 4,5 und die rechnerische Effizienz im Dekoder bis zu dem Faktor 13 steigt.

Benchmarks

Benchmark	Methodik	Metriken
document-summarization-on-arxiv	DeepPyramidion	ROUGE-1: 47.15
document-summarization-on-arxiv-summarization	DeepPyramidion	Rouge-2: 19.99
text-summarization-on-arxiv	DeepPyramidion	ROUGE-1: 47.15 ROUGE-2: 19.99
text-summarization-on-arxiv	Blockwise(baseline)	ROUGE-1: 46.85 ROUGE-2: 19.39

Sparsifizierung von Transformer-Modellen mit trainierbarem Repräsentationspooling

{Anonymous}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Sparsifizierung von Transformer-Modellen mit trainierbarem Repräsentationspooling

{Anonymous}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters