HyperAI
Back to Headlines

من الرد فعل إلى التنبؤ: توقع ازدحام الشبكة باستخدام الذكاء الاصطناعي وتقنية INT

منذ 12 ساعات

من الرد الفوري إلى التنبؤ: توقع تكدس الشبكة باستخدام الذكاء الاصطناعي وتقنية INT السياق في مراكز البيانات الحديثة، يمكن أن تحدث بطء الشبكة بشكل مفاجئ. تدفق بيانات كبير ومفاجئ من الأنظمة الموزعة، الخدمات الدقيقة، أو وظائف تدريب الذكاء الاصطناعي يمكن أن يفوق قدرة مفاتيح الشبكة في ثوانٍ. المشكلة ليست فقط في معرفة متى يحدث الخطأ، بل في القدرة على رؤيته قبل حدوثه. تستخدم أنظمة جمع البيانات الحالية لتتبع صحة الشبكة، لكن معظمها يعمل بنمط رد الفعل. فهي تشير إلى التكدس بعد أن تتدهور الأداء، مما يجعل تشخيص المشكلة مبكراً صعباً. تقنية INT تقدم تقنية جمع البيانات داخل الشبكة (In-band Network Telemetry - INT) حلاً لهذه المشكلة من خلال وضع علامات على الحزم الحية بمعلومات إضافية أثناء مرورها عبر الشبكة. هذه التقنية توفر رؤية في الوقت الحقيقي لتدفق البيانات، حيث تظهر المواقع التي تتشكل فيها طوابير الانتظار، وأماكن زيادة زمن الاستجابة، وكيفية التعامل مع التحويل في كل مفتاح. ومع ذلك، فإن تفعيل INT لكل حزمة يمكن أن يؤدي إلى تكاليف كبيرة، حيث يضيف بيانات جمع وافرة إلى مستوى التحكم، والتي قد لا تكون ضرورية دائماً. مشكلة جمع البيانات المستمر توفر INT رؤية مفصلة وقوية لما يحدث داخل الشبكة. يمكن تتبع طول الطوابير، زمن الاستجابة لكل خطوة، وتواريخ الحزم مباشرة من مسار الحزم. ولكن هناك تكلفة: هذه البيانات تزيد وزن كل حزمة، وإذا تم تطبيقها على كل التدفق، يمكن أن تستهلك طاقة نقل كبيرة وقدرة معالجة. للتغلب على هذا، تستخدم العديد من الأنظمة تقنيات مختصرة: - العينة العشوائية: وضع علامات فقط على نسبة صغيرة (مثل 1%) من الحزم ببيانات جمع. - جمع البيانات المستجيب للحوادث: تفعيل INT فقط عندما يبدأ شيء سيء، مثل تجاوز طابور الانتظار للحد الفاصل. هذه التقنيات تساعد في السيطرة على التكلفة، لكنها تفوت اللحظات الحرجة الأولى لزيادة التدفق، وهي الجزء الأكثر أهمية إذا كنت تحاول منع البطء. تقديم نهج تنبؤي بدلاً من الرد على الأعراض، قمنا بتصميم نظام يمكنه توقع التكدس قبل حدوثه وتفعيل مراقبة مفصلة بشكل استباقي. الفكرة بسيطة: إذا كنا نستطيع التنبؤ بمتى وأين سيزداد التدفق، يمكننا اختيارياً تفعيل INT فقط في هذه النقاط الساخنة وفي الوقت المناسب. هذا يحافظ على التكلفة منخفضة ولكنه يوفر رؤية دقيقة عند الحاجة إليها. تصميم النظام لقد طورنا نهجًا بسيطًا يجعل مراقبة الشبكة أكثر ذكاءً. يمكنه التنبؤ بمتى وأين تحتاج إلى المراقبة. الفكرة هي عدم وضع علامات على كل حزمة وعدم انتظار حدوث التكدس. بدلاً من ذلك، نريد نظامًا يمكنه التقاط علامات المشاكل مبكراً وتفعيل مراقبة عالية الدقة فقط عند الحاجة إليها. لتحقيق ذلك، قمنا بإنشاء أربع مكونات رئيسية لكل مهمة محددة: مجمع البيانات (Data Collector): نبدأ بجمع بيانات الشبكة لمراقبة كمية البيانات التي تتحرك عبر المنافذ المختلفة في أي وقت معين. نستخدم تقنية sFlow لجمع البيانات لأنها تساعد في الحصول على مؤشرات مهمة دون التأثير على أداء الشبكة. يتم التقاط هذه المؤشرات بفواصل زمنية منتظمة للحصول على رؤية في الوقت الحقيقي للشبكة في أي وقت. محرك التنبؤ (Forecasting Engine): يعتبر محرك التنبؤ هو المكون الأكثر أهمية في نظامنا. تم بناؤه باستخدام نموذج الذاكرة قصيرة المدى طويلة الأمد (Long Short-Term Memory - LSTM). اخترنا LSTM لأنه يتعلم كيفية تطور الأنماط بمرور الوقت، مما يجعله مناسبًا لحركة المرور في الشبكة. الهدف ليس تحقيق الكمال، بل التقاط ارتفاعات غير طبيعية في حركة المرور تظهر عادة قبل بداية التكدس. وحدة تحكم جمع البيانات (Telemetry Controller): تقوم الوحدة بالاستماع إلى هذه التنبؤات واتخاذ القرارات. عندما يتجاوز التنبؤ الحد الفاصل للإنذار، يتلقى النظام أمرًا بالتبديل إلى وضع المراقبة المفصل، ولكن فقط للتدفقات أو المنافذ التي تهم. كما أنها تعرف متى يجب التراجع، بإيقاف جمع البيانات الإضافية بمجرد عودة الظروف إلى طبيعتها. مستوى البيانات القابل للبرمجة (Programmable Data Plane): المكون النهائي هو المفتاح نفسه. في نظامنا، نستخدم مفاتيح BMv2 القابلة للبرمجة باللغة P4، والتي تتيح لنا تعديل سلوك الحزم على المحركة. في معظم الأحيان، يقوم المفتاح بتحويل البيانات بدون أي تغييرات. ولكن عندما تُفعّل الوحدة INT، يبدأ المفتاح في وضع علامات على البيانات ضمن الحزم التي تتطابق مع قواعد معينة. يتم دفع هذه القواعد من الوحدة للتركيز على التدفقات التي نهتم بها فقط. التجربة العملية قمنا ببناء تجربة كاملة لهذا النظام باستخدام: - Mininet: لمحاكاة شبكات البيانات. - BMv2: للمفاتيح القابلة للبرمجة. - P4: لبرمجة مستويات البيانات. - iPerf: لإنشاء أثر حركة المرور الصناعي. - TensorFlow: لتدريب نموذج LSTM. تم تدريب نموذج LSTM على آثار حركة المرور الصناعية التي تم إنشاؤها في Mininet باستخدام iPerf. بمجرد التدريب، يشتغل النموذج في حلقة مستمرة، حيث يقوم بالتنبؤات كل 30 ثانية ويحفظ التنبؤات لتنفيذها من قبل وحدة التحكم. سبب اختيار LSTM اخترنا نموذج LSTM لأن حركة المرور في الشبكة ليست عشوائية تماماً، بل لها بنية. هناك أنماط متعلقة بوقت اليوم، الحمل الخلفي، أو وظائف معالجة الدفعات، وLSTMs جيدة خاصة في التقاط هذه العلاقات الزمنية. على عكس النماذج البسيطة التي تعالج كل نقطة بيانات بشكل مستقل، يمكن للـ LSTM تذكر ما جاء قبلها واستخدام هذه الذاكرة لتقديم تنبؤات قصيرة المدى أفضل. بالنسبة لحالتنا، هذا يعني رصد العلامات المبكرة لزيادة التدفق القادمة ببساطة من خلال النظر في كيف سلوك الدقائق الأخيرة. التقييم لم نقم بإجراء اختبارات أداء على نطاق واسع، ولكن من خلال النموذج الأولي وسلوك النظام في ظروف الاختبار، يمكننا توضيح المزايا العملية لهذا التصميم. تفوق الوقت: أحد الفوائد الرئيسية لنظام تنبؤي مثل هذا هو قدرته على التقاط المشاكل مبكراً. تنتظر حلول جمع البيانات رد الفعل حتى يتجاوز طابور الانتظار الحد الفاصل أو يتأثر الأداء، مما يعني أنك تكونت خلف المنحنى. بالمقابل، يتنبأ تصميمنا بالتكدس بناءً على اتجاهات حركة المرور ويقوم بتفعيل مراقبة مفصلة مسبقاً، مما يوفر صورة أوضح للعاملين حول ما أدى إلى المشكلة، وليس مجرد الأعراض عند ظهورها. كفاءة المراقبة: كان هدفنا الرئيسي في هذا المشروع هو الحفاظ على التكلفة منخفضة دون التضحية بالرؤية. بدلاً من تطبيق INT الكامل على جميع التدفقات أو الاعتماد على عينات خشنة، يقوم نظامنا بتفعيل تدقيق بيانات عالي الدقة لفترات قصيرة فقط حيث تشير التنبؤات إلى وجود مشاكل محتملة. رغم عدم توثيق التوفير الدقيق في التكلفة، فإن التصميم يحد بشكل طبيعي من التكلفة بتركيز INT وجعله قصير الأمد، وهو ما لا يمكن تحقيقه من خلال العينات الثابتة أو الاستجابة للحوادث. المقارنة المفاهيمية لأنظمة جمع البيانات بينما لم نسجل مؤشرات التكلفة، كان الهدف من التصميم هو العثور على نقطة الوسط، بتقديم رؤية أعمق من العينات أو الأنظمة المستجيبة للحوادث ولكن بجزء من تكلفة جمع البيانات المستمر. إليك كيف تقارن هذه الطريقة على المستوى العام: العينة العشوائية: تقدم رؤية محدودة وتنطوي على خطر فقدان البيانات المهمة. جمع البيانات المستجيب للحوادث: تتأخر في الاستجابة وتفقد البيانات المبكرة. المنهج التنبؤي: يوفر رؤية مبكرة ودقيقة ويتحكم في التكلفة بشكل فعال. الخاتمة يعتبر هذا النظام نهجًا مبتكرًا لتحسين مراقبة الشبكات، حيث يجمع بين قوة تقنية INT والقدرات التنبؤية للذكاء الاصطناعي. هذا يوفر رؤية دقيقة مسبقة للمشاكل المحتملة ويحد من التكلفة عبر تفعيل المراقبة فقط عند الحاجة إليها. تقييم الحدث من قبل المختصين يرى الخبراء في مجال الشبكات أن هذا النظام يمثل خطوة مهمة نحو تحسين مراقبة الشبكات وزيادة كفاءتها. يؤكدون أن الاستخدام الذكي لـ INT وتقنيات التعلم العميق مثل LSTM يمكن أن يحول المراقبة من رد فعل على الأحداث إلى تنبؤ بها، مما يعزز القدرة على منع المشاكل قبل حدوثها. هذا النهج لا يوفر فقط رؤية أفضل للشبكة، بل يساهم أيضاً في تحسين إدارة الموارد وخفض التكلفة. نبذة تعريفية عن الشركة شركة P4 هي شركة متخصصة في تطوير لغات البرمجة التي تمكن من التحكم المباشر في مستويات البيانات في الشبكات. تعتبر هذه التقنية أساسية في تطبيق نماذج مثل INT بشكل فعال، حيث تتيح للمراقبين تعديل سلوك الحزم وفقاً لاحتياجات المراقبة في الوقت الفعلي.

Related Links