HyperAI

DuoAttention-Framework

DuoAttention ist ein neues Framework, das 2024 von Han Songs Team am Massachusetts Institute of Technology (MIT) vorgeschlagen wurde und darauf abzielt, die Argumentationseffizienz großer Sprachmodelle (LLMs) bei der Verarbeitung langer Textkontexte zu verbessern. Die relevanten Papierergebnisse sindDuoAttention: Effiziente Long-Context-LLM-Inferenz mit Retrieval- und Streaming-Heads".

Dieses Framework optimiert die Speichernutzung und Rechengeschwindigkeit des Modells, indem es geschickt zwischen zwei Arten von Aufmerksamkeitsköpfen unterscheidet: „Retrieval Heads“ und „Streaming Heads“. Der Abrufkopf konzentriert sich auf die Handhabung von Abhängigkeiten mit großer Reichweite und erfordert einen vollständigen Schlüsselwert-Cache (KV), während der Streamingkopf sich auf aktuelle Token und Aufmerksamkeitskonvergenzpunkte konzentriert und nur einen KV-Cache mit fester Länge erfordert. Dieses Design reduziert den Speicherverbrauch und die Latenz des Modells während der Dekodierung und Vorbefüllung erheblich, während die Fähigkeit des Modells, lange Textkontexte zu verarbeiten, erhalten bleibt.

DuoAttention optimiert Speicher- und Rechenressourcen durch die Anwendung eines vollständigen KV-Cache für Abrufheader und eines leichten KV-Cache mit fester Länge für Streaming-Header. Diese Verbesserung verbessert nicht nur die Modelldekodierungsgeschwindigkeit und die Vorfülleffizienz, sondern reduziert auch die Latenz bei der Verarbeitung langer Texte. Beim Multi-Head-Attention-Modell (MHA) kann es um das bis zu 2,55-fache reduziert werden, beim Group-Query-Attention-Modell (GQA) um das bis zu 1,67-fache. Gleichzeitig kann die Dekodierungsgeschwindigkeit beim Multi-Head-Attention-Modell (MHA) um das bis zu 2,18-fache und beim Group-Query-Attention-Modell (GQA) um das bis zu 1,50-fache gesteigert werden. In Bezug auf die Vorfüllgeschwindigkeit kann das Multi-Head-Attention-Modell (MHA) um das bis zu 1,73-fache und das Group-Query-Attention-Modell (GQA) um das bis zu 1,63-fache erhöht werden. Im Vergleich zum Full-Attention-Modus ist der Genauigkeitsverlust minimal. Insbesondere ermöglicht das Dual-Attention-Framework in Kombination mit Quantisierungstechniken die Dekodierung des Llama-3-8B-Modells mit einer Textlänge von 3,3 Millionen auf einer einzelnen A100-GPU.