vor 2 Monaten

Zusammenfassung

Aufmerksamkeit ist die dominierende Quelle der Latenz bei der Inferenz langen Kontexts bei großen Sprachmodellen (LLM), einer zunehmend populären Arbeitslast bei Reasoning-Modellen und RAG-Anwendungen. Wir stellen Kascade vor, eine trainingsfreie Methode für spärliche Aufmerksamkeit, die bekannte Beobachtungen nutzt, darunter 1) die Post-Softmax-Aufmerksamkeit ist intrinsisch spärlich, und 2) die Identität der Schlüssel mit hohen Gewichten über benachbarte Schichten stabil bleibt. Kascade berechnet exakte Top-k-Indizes in einer kleinen Menge von Anchor-Schichten und nutzt diese Indizes dann in dazwischenliegenden Wiederverwendungs-Schichten. Die Anchor-Schichten werden algorithmisch ausgewählt, wobei ein dynamisch-programmierter Ansatz eingesetzt wird, der die Kreuzschicht-Ähnlichkeit auf einer Entwicklungs-Menge maximiert, wodurch eine einfache Anwendung über verschiedene Modelle hinweg ermöglicht wird. Die Methode berücksichtigt effiziente Implementierungsbedingungen (z. B. Tile-ebene Operationen) sowohl bei der Prefill- als auch bei der Decode-Aufmerksamkeit. Die Top-k-Auswahl und -Wiederverwendung in Kascade ist kopf-orientiert, und unsere Experimente zeigen, dass dies entscheidend für hohe Genauigkeit ist. Kascade erreicht auf H100-GPUs bis zu 4,1-fache Beschleunigung bei der Decode-Aufmerksamkeit und bis zu 2,2-fache Beschleunigung bei der Prefill-Aufmerksamkeit im Vergleich zur FlashAttention-3-Basislinie, während die Genauigkeit bei langen Kontext-Benchmarks wie LongBench und AIME-24 nahe an der dichten Aufmerksamkeit bleibt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Transformer

LLM

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Transformer

LLM

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kascade: Eine praktische spärliche Aufmerksamkeitsmethode für die Long-Context-LLM-Inferenz

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kascade: Eine praktische spärliche Aufmerksamkeitsmethode für die Long-Context-LLM-Inferenz

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kascade: Eine praktische spärliche Aufmerksamkeitsmethode für die Long-Context-LLM-Inferenz

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters