خوارزمية FlashAttention
FlashAttention هي خوارزمية انتباه فعالة وصديقة للذاكرة اقترحتها جامعة ستانفورد وجامعة ولاية نيويورك في عام 2022. وتهدف إلى حل مشاكل التعقيد الحسابي العالي وإشغال الذاكرة لطبقة الانتباه الذاتي في نموذج المحول التقليدي.نتائج الورقة ذات الصلة هيFlashAttention: انتباه دقيق سريع وفعال للذاكرة مع IO-Awarenessتم دمج الخوارزمية في PyTorch 2.0، وتم دمجها وتنفيذها بواسطة العديد من أطر العمل مفتوحة المصدر مثل triton وxformer. تُسرّع هذه الخوارزمية الحوسبة بشكل ملحوظ من خلال إعادة ترتيب حسابات الانتباه، والاستفادة من تقنيات التبليط وإعادة الحساب، وتُقلل استخدام الذاكرة من تربيعي إلى خطي في طول التسلسل.
ويساهم إطلاق FlashAttention في تمكين نماذج مفتوحة المصدر كبيرة الحجم مثل LLaMA من Meta وFalcon التي أطلقتها دولة الإمارات العربية المتحدة لتسريع الحوسبة وتوفير ذاكرة الفيديو. بالإضافة إلى ذلك، تم تحسين الإصدار اللاحق من FlashAttention FlashAttention-2 على الأساس الأصلي، مما يوفر توازيًا أفضل وتقسيمًا للعمل، وتم نشره بواسطة Tri Dao في يوليو 2023 من خلال الورقة "FlashAttention-2: انتباه أسرع مع توازي أفضل وتقسيم عمل أفضل"اقترح."
تم اقتراح FlashAttention-3 بشكل مشترك من قبل فريق بحثي من Colfax Research وMeta وNVIDIA وGeorgia Tech وPrinceton University وTogether AI في يوليو 2024. الورقة ذات الصلة هي "FlashAttention-3: انتباه سريع ودقيق مع عدم التزامن ودقة منخفضةكأحدث إصدار من السلسلة، يُحقق تحسينات كبيرة في أداء وحدة معالجة الرسومات H100، أسرع من FlashAttention-2 بمقدار 1.5-2.0 مرة، ويصل إلى 740 تيرا فلوب (TFLOPS)، أو 75% أقصى استخدام نظري لـ FLOPS على H100، ويقترب من 1.2 بيتا فلوب (PFLOPS) عند استخدام FP8. هذه التحسينات تجعل تدريب وتشغيل LLM أسرع بكثير، مع تمكين استخدام أرقام ذات دقة أقل (FP8) مع الحفاظ على الدقة، مما قد يقلل من استخدام الذاكرة ويوفر التكاليف.