HyperAI

Aufmerksamkeit Für Gruppierte Abfragen (GQA)

Grouped Query Attention (GQA) ist eine Methode, die zwischen Multi-Query Attention (MQA) und Multi-Head Attention (MHA) in Large Language Models (LLM) interpoliert.Ziel ist es, die Qualität von MHA zu erreichen und gleichzeitig die Geschwindigkeit von MQA beizubehalten.

Zu den wichtigsten Merkmalen der Güteprüfung gehören:

  • Interpolation: GQA ist eine Zwischenmethode zwischen MQA und MHA, die die Mängel von MQA, wie Qualitätsminderung und Trainingsinstabilität, behebt.
  • Effizienz: GQA optimiert die Leistung bei gleichbleibender Qualität durch die Verwendung einer Zwischenanzahl von Schlüssel-Wert-Headern.
  • Abtausch: GQA schafft ein Gleichgewicht zwischen der Geschwindigkeit von MQA und der Qualität von MHA und bietet so einen günstigen Kompromiss.