HyperAI
Back to Headlines

تقنية هيلكس تضاعف قدرة الذكاء الاصطناعي على خدمة المستخدمين بأكثر من 32 مرة عند التعامل مع بيانات تتخطى حجم الموسوعة

منذ 2 أيام

ملخص تقنية هيليكس للترميز في الزمن الحقيقي لنموذج لغوي كبير في السنوات الأخيرة، ازداد الاعتماد على نماذج الذكاء الاصطناعي التي تجمع بين عدد ضخم من المعلمات ونوافذ سياقية تبلغ ملايين العلامات (tokens). هذه النماذج ضرورية لتطبيقات مثل الوكلاء الافتراضيين الذين يتبعون محادثات تستمر لأشهر، ومساعدي القانون الذين يتعاملون مع غيغابايتات من القوانين، وأدوات البرمجة التي تتنقل عبر مستودعات الكود الواسعة. الحفاظ على السياق طويل المدى هو ضروري لتحقيق الدقة والترابط في هذه التطبيقات. تحدد هذه الحاجة القدرة على ترجمة كميات هائلة من البيانات بسرعة وكفاءة، مما يعزز أهمية الحوسبة بنظام FP4 والمنطقة الكبيرة عالية النطاق الترددي التي توفرها أنظمة NVIDIA Blackwell. تقنية "هيليكس للترابط" (Helix Parallelism)، التي تم تقديمها في هذا المقال، هي تقنية مصممة بشكل مشترك مع Blackwell وتسمح بزيادة عدد المستخدمين المتوازيين بنسبة تصل إلى 32 مرة عند مستوى زمن الاستجابة المعين، مقارنة بأفضل طرق الترابط السابقة للترميز في الزمن الحقيقي مع سياق طويل جداً. تحديات ترميز البيانات الضخمة لدعم الترميز في الزمن الحقيقي بمقياس كبير، يجب على النظام التغلب على تحديين رئيسيين خلال مرحلة الترميز: تدفق ذاكرة التخزين المؤقت للقيم والمفاتيح (KV cache): يتم تخزين وaccès بيانات السياق السابقة من خلال ذاكرة التخزين المؤقت للقيم والمفاتيح. قراءة أوزان الشبكة العصبية الكاملة الأمامية (FFN weight reads): يتم تحميل الأوزان الكبيرة للشبكة العصبية الكاملة الأمامية. استخدام استراتيجيات الترابط التقليدية مثل الترابط التنسوري (Tensor Parallelism) يساعد في تقليل توقفات FFN عن طريق توزيع تحميل الأوزان على عدة بطاقات رسومية، لكن فقط حتى نقطة معينة. في نماذج الانتباه مثل انتباه الاستفسار المجموع (Grouped Query Attention - GQA) أو انتباه متعدد البؤر (Multi-Latent Attention - MLA)، يتم مشاركة عدد محدود من رؤوس KV بين عدة رؤوس استفسار. عندما تتعدى الترابط التنسوري عدد رؤوس KV، ينتج عنها تكرار ذاكرة التخزين المؤقت KV لكل عينة، مما يزيد من حمل الذاكرة ويحد من القدرة على التوسع. في حالة MLA، الحد الأقصى لـ TP هو واحد لتجنب التكرار. آلية عمل هيليكس تقنية هيليكس هي استراتيجية تجزئة هجينة تفصل بين استراتيجيات الترابط للاهتمام والشبكات العصبية الكاملة الأمامية في خط أنابيب زمني، مما يتيح التعامل بكفاءة مع تحديات ذاكرة التخزين المؤقت KV وقراءة أوزان FFN أثناء ترميز ملايين العلامات. مرحلة الانتباه: تطبق هيليكس الترابط KV (KVP) بتجزئة ذاكرة التخزين المؤقت KV على طول البعد السقري عبر KVP بطاقات رسومية. تستخدم الترابط التنسوري عبر رؤوس الانتباه (TPA)، حيث يتم تقسيم كل اسقاط QKV عبر TPA بطاقات رسومية وهي أقل من أو تساوي عدد رؤوس KV لتجنب التكرار. هذا يتيح التعاون بين N=KVPxTPA بطاقات رسومية في حسابات الانتباه دون تكرار ذاكرة التخزين المؤقت KV. تقنيات تحسين زمن الاستجابة: تقدم هيليكس تقنية التداخل الدقيق بين الطلب والدفعة (HOP-B) لتداخل الاتصال والحساب عبر الدفعات. بمجرد حساب خرج الانتباه لعلامة واحدة، تقوم هيليكس بإطلاق تبادل الاتصال لتلك العلامة، بينما يتم حساب الانتباه للعلامة التالية في الوقت نفسه. هذا التداخل الدقيق يخفي زمن الاتصال خلف العمل المفيد، مما يحافظ على استخدام البطاقات الرسومية بكفاءة ويتسارع في الترميز في الزمن الحقيقي. مرحلة الشبكة العصبية الكاملة الأمامية (FFN): بعد مرحلة الانتباه، يتم إعادة تخصيص نفس N=KVPxTPA بطاقات الرسومية بدون وقت فراغ لتنفيذ كتلة FFN. يتم تقسيم الخرج من خطوة الاتصال الجماعي عبر N بطاقات رسومية حسب البعد المخفي، مما يسمح بتنفيذ التحويل الخطي بعد الانتباه فوراً في وضع TP (TP=N). بعد التحويل الخطي، يتم إعادة تكوين N بطاقات الرسومية لحساب FFN باستخدام تخطيط TP واحد البعد (N=TPF) في النماذج الكثيفة أو شبكة TP x EP ثنائية الأبعاد (N=TPFxEP) في نماذج متعددة الخبراء (MoE). تحديث ذاكرة التخزين المؤقت KV: أثناء الترميز، يتم بث كل علامة جديدة إلى جميع بطاقات الرسومية KVP لحساب الاستفسار. لمنع نقاط السخونة في ذاكرة DRAM، تقوم هيليكس بتحديث ذاكرة التخزين المؤقت KV عبر Ranks KVP بطريقة متعاقبة، مما يضمن نمو KV موحد، ويوازن استخدام الذاكرة، ويحافظ على سرعة ثابتة بغض النظر عن طول السياق أو حجم الدفعة. نتائج المحاكاة على Blackwell تقدم تقنية هيليكس معيارًا جديدًا للأداء في ترميز نماذج اللغات الطبيعية ذات السياق الطويل. تظهر الشكل 4 (المشار إليه في النص الأصلي) جبهة باريتو المحسنة لأعلى سرعة وأقل زمن استجابة أثناء ترميز نموذج DeepSeek-R1 671B باستخدام سياق يبلغ مليون علامة. تم الحصول على هذه النتائج من خلال محاكاة شاملة على آلاف التكوينات، مع تغيير استراتيجيات تقسيم النموذج وحجم الدفعة لتحديد أفضل التوازنات بين السرعة وزمن الاستجابة. هذه التحسينات ممكنة بفضل تجزئة ذاكرة التخزين المؤقت KV وأوزان FFN عبر جميع الأجهزة المتاحة، مما يقلل بشكل كبير من ضغط ذاكرة DRAM ويعزز كفاءة الحوسبة. تقنية هيليكس تدفع جبهة باريتو للسرعة وزمن الاستجابة، مما يسمح بزيادة السرعة حتى عند أوقات استجابة أقل. تقييم الحدث من قبل المختصين يعد تصميم تقنية هيليكس بشكل مشترك مع قدرات Blackwell الأخيرة خطوة مهمة نحو توفير حلول فعالة لخدمة نماذج اللغات الطبيعية ذات السياق الطويل بمليون علامة أو أكثر. يتميز هذا الحل بكفاءة عالية في استخدام الموارد وسرعة الاستجابة، مما يجعله مثاليًا للتطبيقات التي تتطلب تفاعلًا فوريًا ودقة عالية. يمكن توقع أن تساهم هذه التقنية في تطوير المزيد من التطبيقات المبتكرة في المستقبل القريب. نبذة تعريفية عن NVIDIA Blackwell NVIDIA Blackwell هي نظام حوسبة عالي الأداء مصمم لدعم النماذج العميقة والتعلم الآلي. تتميز بأنظمة NVLink عالية النطاق الترددي التي تسمح بالتواصل الفعال بين بطاقات الرسومية، مما يعزز كفاءة الحوسبة والذاكرة. بالإضافة إلى ذلك، توفر Blackwell دقة FP4 التي تسهم في تحسين كفاءة الحوسبة وتخفيض استهلاك الطاقة، مما يجعلها الخيار الأمثل لتطبيقات الذكاء الاصطناعي المتطورة والكبيرة.

Related Links