Cadre DuoAttention
DuoAttention est un nouveau framework proposé par l'équipe de Han Song au Massachusetts Institute of Technology (MIT) en 2024, qui vise à améliorer l'efficacité du raisonnement des grands modèles de langage (LLM) lors du traitement de longs contextes de texte. Les résultats pertinents de l'article sontDuoAttention : Inférence LLM efficace en contexte long avec têtes de récupération et de streaming".
Ce cadre optimise l'utilisation de la mémoire et la vitesse de calcul du modèle en distinguant intelligemment deux types de têtes d'attention : les « têtes de récupération » et les « têtes de streaming ». La tête de récupération se concentre sur la gestion des dépendances à longue portée et nécessite un cache clé-valeur (KV) complet, tandis que la tête de streaming se concentre sur les jetons récents et les points de convergence d'attention et ne nécessite qu'un cache KV de longueur fixe. Cette conception réduit considérablement l’utilisation de la mémoire du modèle et la latence lors du décodage et du pré-remplissage, tout en maintenant la capacité du modèle à gérer de longs contextes de texte.
DuoAttention optimise la mémoire et les ressources informatiques en appliquant un cache KV complet pour les en-têtes de récupération et un cache KV léger de longueur fixe pour les en-têtes de streaming. Cette amélioration améliore non seulement la vitesse de décodage du modèle et l’efficacité du pré-remplissage, mais réduit également la latence lors du traitement de textes longs. Pour le modèle d'attention multi-têtes (MHA), il peut être réduit jusqu'à 2,55 fois, et pour le modèle d'attention de requête de groupe (GQA), il peut être réduit jusqu'à 1,67 fois ; dans le même temps, en termes de vitesse de décodage, le modèle d'attention multi-têtes (MHA) peut être augmenté jusqu'à 2,18 fois, et le modèle d'attention de requête de groupe (GQA) peut être augmenté jusqu'à 1,50 fois ; en termes de vitesse de pré-remplissage, le modèle d'attention multi-têtes (MHA) peut être augmenté jusqu'à 1,73 fois, et le modèle d'attention de requête de groupe (GQA) peut être augmenté jusqu'à 1,63 fois, et par rapport au mode d'attention complète, la perte de précision est minime. Notamment, combiné aux techniques de quantification, le cadre d'attention double permet le décodage du modèle Llama-3-8B avec une longueur de texte de 3,3 millions sur un seul GPU A100.