HyperAIHyperAI

Native Spärliche Aufmerksamkeit

Native Sparse Attention (NSA) ist ein nativer, trainierbarer Mechanismus für Sparse Attention, der am 27. Februar 2025 von DeepSeek, der Peking University und der University of Washington vorgeschlagen wurde. Ziel ist es, das Problem des rechnerischen Engpasses bei der Modellierung langer Sequenzen zu lösen. Diese Methode kombiniert algorithmische Innovation mit Hardwareoptimierung, um eine effiziente Modellierung langer Kontexte zu erreichen.Native Sparse Attention: Hardware-ausgerichtete und nativ trainierbare Sparse Attention“, das mit dem ACL 25 Best Paper Award ausgezeichnet wurde.

NSA ist auf einem Transformer-Backbone-Modell mit 27 Milliarden Parametern vortrainiert und erreicht bei gängigen Benchmarks, Aufgaben mit langen Kontexten und Inferenzaufgaben eine vergleichbare oder bessere Leistung als vollständig verbundene Aufmerksamkeitsmodelle. Bei der Verarbeitung von Sequenzen mit einer Länge von 64.000 erreicht NSA erhebliche Beschleunigungen bei der Dekodierung sowie der Vorwärts- und Rückwärtspropagation.

Native Spärliche Aufmerksamkeit | Wiki | HyperAI