آلية الانتباه المتناثر لمنع الانتباه النجمي
Star Attention هي آلية انتباه متفرقة اقترحتها NVIDIA في عام 2024، وهي مصممة لتحسين كفاءة الاستدلال لنماذج اللغة الكبيرة (LLMs) المستندة إلى المحول على التسلسلات الطويلة. تعمل هذه الآلية على تحسين سرعة الاستدلال بشكل كبير من خلال تدفق المعالجة على مرحلتين وتحسين استخدام موارد الحوسبة مع الحفاظ على الدقة العالية.
نتائج الورقة ذات الصلة هيانتباه النجوم: استدلال فعال في مجال LLM عبر التسلسلات الطويلةتُفصّل هذه الورقة مبدأ عمل ومزايا Star Attention، بما في ذلك تشغيله على مرحلتين: الأولى هي ترميز السياق، والثانية هي معالجة الاستعلامات وتوليد الرموز. يُقلّل Star Attention وقت الاستدلال بشكل كبير، مُخفّضًا بذلك متطلبات الذاكرة ووقت الاستدلال بما يصل إلى 11 ضعفًا مع الحفاظ على دقة تتراوح بين 95 و100%.