الاهتمام بالاستعلامات المجمعة (GQA)
يُعد Grouped Query Attention (GQA) طريقة تقوم بالتداخل بين Multi Query Attention (MQA) وMulti-Head Attention (MHA) في نماذج اللغة الكبيرة (LLM).هدفها هو تحقيق جودة MHA مع الحفاظ على سرعة MQA.
تشمل السمات الرئيسية لـ GQA ما يلي:
- الاستيفاء:GQA هي طريقة وسيطة بين MQA وMHA، والتي تحل أوجه القصور في MQA، مثل تدهور الجودة وعدم استقرار التدريب.
- كفاءة:يعمل GQA على تحسين الأداء مع الحفاظ على الجودة باستخدام عدد وسيط من رؤوس القيمة الرئيسية.
- التنازل عن ميزة ممن أجل الحصول على أخرى:تحقق GQA التوازن بين سرعة MQA وجودة MHA، مما يوفر مقايضة مواتية.