آلية الانتباه المتناثر لمنع الانتباه النجمي
Date
Star Attention هي آلية انتباه متفرقة اقترحتها NVIDIA في عام 2024، وهي مصممة لتحسين كفاءة الاستدلال لنماذج اللغة الكبيرة (LLMs) المستندة إلى المحول على التسلسلات الطويلة. تعمل هذه الآلية على تحسين سرعة الاستدلال بشكل كبير من خلال تدفق المعالجة على مرحلتين وتحسين استخدام موارد الحوسبة مع الحفاظ على الدقة العالية.
نتائج الورقة ذات الصلة هيانتباه النجوم: استدلال فعال في مجال LLM عبر التسلسلات الطويلةتُفصّل هذه الورقة مبدأ عمل ومزايا Star Attention، بما في ذلك تشغيله على مرحلتين: الأولى هي ترميز السياق، والثانية هي معالجة الاستعلامات وتوليد الرموز. يُقلّل Star Attention وقت الاستدلال بشكل كبير، مُخفّضًا بذلك متطلبات الذاكرة ووقت الاستدلال بما يصل إلى 11 ضعفًا مع الحفاظ على دقة تتراوح بين 95 و100%.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.