Mécanisme D'attention Clairsemée Par Blocage D'attention En Étoile
Star Attention est un mécanisme d'attention clairsemée par blocs proposé par NVIDIA en 2024, conçu pour améliorer l'efficacité d'inférence des grands modèles de langage (LLM) basés sur Transformer sur de longues séquences. Ce mécanisme améliore considérablement la vitesse d’inférence grâce à un flux de traitement en deux étapes et optimise l’utilisation des ressources de calcul tout en maintenant une grande précision.
Les résultats pertinents de l'article sontAttention Star : inférence LLM efficace sur de longues séquences", l'article détaille le principe de fonctionnement et les avantages de Star Attention, notamment son fonctionnement en deux étapes : la première étape est l'encodage du contexte, et la deuxième étape est le traitement des requêtes et la génération de jetons. Star Attention peut réduire considérablement le temps d'inférence, réduisant les besoins en mémoire et le temps d'inférence jusqu'à 11 fois tout en maintenant une précision de 95-100%.