Command Palette
Search for a command to run...
Jede Aufmerksamkeit zählt: Eine effiziente hybride Architektur für die Verarbeitung langer Kontexte

Abstract
In diesem technischen Bericht stellen wir die Ring-linear-Modellreihe vor, bestehend speziell aus den Modellen Ring-mini-linear-2.0 und Ring-flash-linear-2.0. Ring-mini-linear-2.0 verfügt über 16 Milliarden Parameter und 957 Millionen Aktivierungen, während Ring-flash-linear-2.0 104 Milliarden Parameter und 6,1 Milliarden Aktivierungen umfasst. Beide Modelle basieren auf einer hybriden Architektur, die lineare Aufmerksamkeit (linear attention) und Softmax-Aufmerksamkeit effizient integriert und somit den I/O- und Rechenaufwand in Szenarien mit langen Kontexten erheblich reduziert. Im Vergleich zu einem dichten Modell mit 32 Milliarden Parametern wird die Inferenzkosten auf ein Zehntel reduziert, und im Vergleich zur ursprünglichen Ring-Reihe sinkt die Kosten um über 50 %. Zudem haben wir durch eine systematische Untersuchung des Verhältnisses zwischen den verschiedenen Aufmerksamkeitsmechanismen in der hybriden Architektur die derzeit optimale Modellstruktur identifiziert. Darüber hinaus ermöglicht die Nutzung unserer selbstentwickelten Hochleistungs-FP8-Operator-Bibliothek linghe eine Steigerung der Gesamtrausführungsleistung während des Trainings um 50 %. Aufgrund der hohen Kompatibilität zwischen den Trainings- und Inferenz-Engine-Operatoren können die Modelle im Verlauf des Verstärkungslernens langfristig, stabil und äußerst effizient optimiert werden und behalten dabei konsistent Spitzenleistung (SOTA) auf mehreren anspruchsvollen Benchmarks für komplexe Schlussfolgerungen aufrecht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.