Command Palette
Search for a command to run...
SeerAttention-R: Sparsame Aufmerksamkeitsanpassung für lange Schlussfolgerungen
SeerAttention-R: Sparsame Aufmerksamkeitsanpassung für lange Schlussfolgerungen
Zusammenfassung
Wir stellen SeerAttention-R vor, einen dünnbesetzten Aufmerksamkeitsrahmen, der speziell für die lange Decodierung von Schließungsmodellen entwickelt wurde. Aus SeerAttention weiterentwickelt, behält SeerAttention-R das Konzept des Lernens von Aufmerksamkeitsdünnbesetzung durch ein selbstdestilliertes Gating-Mechanismus bei, entfernt aber die Query-Pooling, um eine autoregressive Decodierung zu ermöglichen. Durch ein leichtgewichtiges Plug-In-Gating ist SeerAttention-R flexibel und kann ohne Modifikation der ursprünglichen Parameter in bestehende vortrainierte Modelle integriert werden. Wir zeigen, dass SeerAttention-R, mit nur 0,4 Milliarden Tokens trainiert, eine fast fehlerfreie Schließungsgenauigkeit bei einem Token-Budget von 4K im AIME-Benchmark unter großen dünnbesetzten Aufmerksamkeitsblöcken (64/128) aufrechterhält. Mit TileLang haben wir einen hoch optimierten dünnbesetzten Decodierungskernel entwickelt, der bis zu 9-fache theoretische Beschleunigungen gegenüber FlashAttention-3 auf H100 GPU bei einer Dünnbesetzung von 90 % erreicht. Der Quellcode ist verfügbar unter: https://github.com/microsoft/SeerAttention.