HyperAIHyperAI
Back to Headlines

أزمة الذاكرة في الذكاء الاصطناعي: مؤسس WEKA يكشف عن العائق الخفي الذي يهدد صناعة الذكاء الاصطناعي

منذ 7 أيام

يواجه قطاع الذكاء الاصطناعي أزمة خفية تُعرف بـ"جدار الذاكرة"، وفقًا لليران زفيبل، الرئيس التنفيذي لشركة WEKA المتخصصة في تخزين البيانات للذكاء الاصطناعي. رغم التركيز الكبير على تكاليف الحوسبة أثناء تدريب النماذج، فإن التحدي الأكبر اليوم يكمن في عملية الاستدلال (inference)، التي تُعدّ محدودة بالذاكرة أكثر من الحوسبة. حتى أقوى وحدات المعالجة الرسومية، مثل Nvidia’s Blackwell Ultra التي تصل سعتها إلى 300 جيجابايت، تواجه صعوبة في تلبية متطلبات نماذج مثل Meta Llama، التي تستهلك ما يقارب 500 جيجابايت لكل عملية استخدام. يوضح زفيبل أن البنية التحتية الحالية، المصممة لتدريب النماذج، لا تتناسب مع متطلبات الاستدلال، إذ أن التدريب يعتمد على الحوسبة، بينما الاستدلال يعتمد على الذاكرة. وعندما يُطلب من النموذج معالجة نافذة سياق تصل إلى 100 ألف كلمة — وهو أمر شائع — يتطلب ذلك 50 جيجابايت من الذاكرة، ما يجعل الذاكرة عائقًا أمام عدد المستخدمين المتزامنين. هذا ما يُسمى بـ"جدار الذاكرة"، الذي يحد من قدرة النماذج على العمل بكفاءة، ويؤدي إلى تأخير في الاستجابة، وفرض حدود على عدد المستخدمين، كما هو ملاحظ في تجارب المستخدمين مع أدوات مثل ChatGPT. مع تطور الذكاء الاصطناعي العامل (Agentic AI)، ستتفاقم المشكلة، إذ أن النماذج الأذكى ستتطلب نوافذ سياق أطول، وتحليلات معقدة، وذاكرة أكبر للتحقق من النتائج. ويحذر زفيبل من أن التوسع في عدد الوكلاء الذكية سيضغط بشكل كبير على البنية التحتية دون حلول فعّالة. من ناحية اقتصادية، يختلف الاستدلال عن التدريب: التدريب يُعتبر إنفاقًا استثماريًا، بينما الاستدلال يجب أن يُدرّ ربحًا، ويجب أن يتناسب مع عدد المستخدمين في العالم. وتشير تقارير إلى أن استهلاك الاستدلال يُشكل نحو 60% من إيرادات OpenAI، ما يبرز أهمية الكفاءة. لكن هناك حلول واعدة. شركات مثل DeepSeek وCohere، التي تستخدم منصات WEKA، أظهرت نجاحًا في تحسين الكفاءة عبر تحسين إدارة الذاكرة، مثل تخزين القيم المُحفوظة (key-value caching) وتقسيم مهام التجهيز (disaggregated prefill). كما نجحت Cohere في تقليل وقت التسخين للخوادم من 15 دقيقة إلى ثوانٍ، ما يُقلل وقت الاستجابة الأولية بنصف، ويزيد عدد الرموز المتزامنة أربعة إلى خمس مرات. زفيبل يرى أن الأجهزة القديمة، رغم تراجع أدائها، يمكن أن تُستخدم بكفاءة في مهام الاستدلال، خصوصًا في مراحل التفكيك (decoding)، بينما تُستخدم الأحدث في مهام التجهيز (prefill) التي تتطلب أقصى قدر من الأداء. هذا التوزيع الذكي للوظائف يُمكّن من الاستفادة القصوى من الموارد الحالية، ويقلل التكاليف. في النهاية، يؤكد زفيبل أن النجاح في عصر الذكاء الاصطناعي لا يعتمد فقط على الأداء، بل على الاقتصاد: "في التدريب، يجب الفوز بالنتائج، أما في الاستدلال، يجب الفوز بالتكلفة." لذا، فإن تجاوز جدار الذاكرة ليس مجرد تحدٍ تقني، بل ضرورة لاستدامة وتوسع الذكاء الاصطناعي على المدى الطويل.

Related Links