HyperAIHyperAI

Command Palette

Search for a command to run...

SeerAttention-R: Sparsame Aufmerksamkeitsanpassung für lange Schlussfolgerungen

Zusammenfassung

Wir stellen SeerAttention-R vor, einen dünnbesetzten Aufmerksamkeitsrahmen, der speziell für die lange Decodierung von Schließungsmodellen entwickelt wurde. Aus SeerAttention weiterentwickelt, behält SeerAttention-R das Konzept des Lernens von Aufmerksamkeitsdünnbesetzung durch ein selbstdestilliertes Gating-Mechanismus bei, entfernt aber die Query-Pooling, um eine autoregressive Decodierung zu ermöglichen. Durch ein leichtgewichtiges Plug-In-Gating ist SeerAttention-R flexibel und kann ohne Modifikation der ursprünglichen Parameter in bestehende vortrainierte Modelle integriert werden. Wir zeigen, dass SeerAttention-R, mit nur 0,4 Milliarden Tokens trainiert, eine fast fehlerfreie Schließungsgenauigkeit bei einem Token-Budget von 4K im AIME-Benchmark unter großen dünnbesetzten Aufmerksamkeitsblöcken (64/128) aufrechterhält. Mit TileLang haben wir einen hoch optimierten dünnbesetzten Decodierungskernel entwickelt, der bis zu 9-fache theoretische Beschleunigungen gegenüber FlashAttention-3 auf H100 GPU bei einer Dünnbesetzung von 90 % erreicht. Der Quellcode ist verfügbar unter: https://github.com/microsoft/SeerAttention.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp