HyperAIHyperAI

Command Palette

Search for a command to run...

Kascade : Une méthode pratique d’attention creuse pour l’inférence des LLM à contexte long

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Abstract

L’attention constitue la principale source de latence lors de l’inférence sur de longs contextes pour les modèles de langage à grande échelle (LLM), une charge de travail de plus en plus courante avec les modèles de raisonnement et les systèmes de recherche et d’agrégation de connaissances (RAG). Nous proposons Kascade, une méthode d’attention creuse sans entraînement qui exploite des observations connues, telles que : 1) l’attention post-softmax est intrinsèquement creuse, et 2) l’identité des clés à poids élevé reste stable sur des couches voisines. Kascade calcule les indices exacts du Top-k dans un petit ensemble de couches d’ancrage, puis réutilise ces indices dans des couches intermédiaires. Les couches d’ancrage sont sélectionnées de manière algorithmique, via une fonction objective basée sur la programmation dynamique, qui maximise la similarité entre couches sur un ensemble de développement, permettant un déploiement aisé sur différents modèles. La méthode intègre des contraintes d’implémentation efficaces (par exemple, opérations au niveau des tuiles), tant pour l’attention en pré-remplissage (prefill) que pour l’attention en décodage (decode). La sélection et la réutilisation du Top-k dans Kascade sont conscientes des têtes (head-aware), et nos expériences montrent que cette caractéristique est cruciale pour atteindre une haute précision. Kascade atteint jusqu’à un gain de vitesse de 4,1× pour l’attention en décodage et de 2,2× pour l’attention en pré-remplissage par rapport à la référence FlashAttention-3 sur des GPU H100, tout en maintenant une précision quasi équivalente à celle de l’attention dense sur des benchmarks à long contexte tels que LongBench et AIME-24.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Kascade : Une méthode pratique d’attention creuse pour l’inférence des LLM à contexte long | Papers | HyperAI