HyperAI

الاهتمام بالاستعلامات المجمعة (GQA)

يُعد Grouped Query Attention (GQA) طريقة تقوم بالتداخل بين Multi Query Attention (MQA) وMulti-Head Attention (MHA) في نماذج اللغة الكبيرة (LLM).هدفها هو تحقيق جودة MHA مع الحفاظ على سرعة MQA.

تشمل السمات الرئيسية لـ GQA ما يلي:

  • الاستيفاء:GQA هي طريقة وسيطة بين MQA وMHA، والتي تحل أوجه القصور في MQA، مثل تدهور الجودة وعدم استقرار التدريب.
  • كفاءة:يعمل GQA على تحسين الأداء مع الحفاظ على الجودة باستخدام عدد وسيط من رؤوس القيمة الرئيسية.
  • التنازل عن ميزة ممن أجل الحصول على أخرى:تحقق GQA التوازن بين سرعة MQA وجودة MHA، مما يوفر مقايضة مواتية.