HyperAIHyperAI

Command Palette

Search for a command to run...

Quesma تطلق OTelBench: معيار مستقل يكشف ضعف النماذج القيادية في المهام الحقيقية لمهندسي الموثوقية في الأنظمة أظهرت الدراسة الجديدة التي أطلقها مختبر Quesma، بعنوان OTelBench، الفجوة الكبيرة بين قدرة النماذج اللغوية الكبيرة (LLMs) على كتابة الشفرة وتمكّنها من أداء مهام هندسية حقيقية في بيئة تشغيلية، حيث حققت أفضل النماذج أداءً بنسبة نجاح بلغت 29% فقط في مهام تهيئة OpenTelemetry، مقارنة بنسبة 80.9% في معيار SWE-Bench. وتم إطلاق OTelBench، أول معيار مستقل لتقييم أداء النماذج اللغوية الكبيرة في مهام التهيئة المرتبطة بـ OpenTelemetry، في وارسو، بولندا، ويُعدّ خطوة مهمة نحو تقييم موثوق لقدرة الذكاء الاصطناعي على دعم هندسة الموثوقية في الأنظمة (SRE) في بيئات الإنتاج. رغم التقدم المذهل في قدرة النماذج مثل Claude Opus 4.5 على إنشاء شفرة برمجية، إلا أن أدائها في المهام الحقيقية يظل محدودًا، خاصة في مهام التتبع الموزع، التي تمثل حجر الزاوية في مراقبة الأنظمة عالية الأداء. وقد أظهرت النتائج أن النماذج تعجز عن معالجة تمرير السياق (context propagation)، وهي مهارة أساسية في الأنظمة الموزعة، ما يشكل تحديًا جوهريًا أمام استخدام الذكاء الاصطناعي في بيئات الإنتاج. وأوضح جاك ميغدال، المؤسس المشارك لشركة Quesma، أن "البنية التحتية للصناعة البرمجية تعتمد على أنظمة معقدة وعالية المقياس، وتحتاج إلى موثوقية حاسمة. لكن OTelBench يُظهر أن النماذج القيادية ما زالت غير قادرة على أداء مهام أساسية في التهيئة، حتى على نطاق صغير، ولا تمتلك القدرة على حل المشكلات بشكل متكامل في بيئة تشغيلية حقيقية. بينما تروج شركات عديدة لحلول ذكاء اصطناعي لمهندسي الموثوقية، فإنها تفتقر إلى تحقق مستقل وشفاف." وأضاف ميغدال أن النماذج حققت بعض النجاح في لغات مثل Go وC++، بينما كانت الأداء في JavaScript وPHP و.NET وPython مقبولًا جزئيًا، لكنها فشلت تمامًا في مهام لغة Rust، ولم تُنجز أي مهمة في لغات Swift وRuby وJava. وأشار إلى أن "الذكاء الاصطناعي لمهندسي الموثوقية في 2026 يشبه ما كانت عليه تقنيات اكتشاف الشذوذ في التطوير (DevOps) في 2016: الكثير من التسويق، لكنه يفتقر إلى معايير تقييم مستقلة". وأضاف أن إطلاق OTelBench كمصدر مفتوح يهدف إلى تزويد المجتمع بـ"نجمة شمال" لتحديد المسار الحقيقي للتقدم، بدلاً من الانجراف وراء الإعلانات المبالغ فيها. ويمكن الاطلاع على OTelBench عبر الموقع: https://quesma.com/benchmarks/otel/ تُقدّم Quesma دعمًا لشركات النماذج اللغوية الكبيرة وصانعي الوكلاء الذكية من خلال تقييمات مستقلة وبيئات محاكاة متقدمة، وتغطي مجالات حيوية مثل أمن المعلومات، وتطوير التطبيقات، ونقل قواعد البيانات. وتم تمويل الشركة من قبل Heartcore Capital، Inovo، Firestreak Ventures، وعدد من المستثمرين الأفراد، من بينهم كريستينا بييدجن، المؤسسة المشتركة لشركة Sumo Logic. لمزيد من المعلومات، يُمكن زيارة www.quesma.com أو متابعة الشركة على LinkedIn.

أطلقت شركة قويسمة (Quesma) منتجها الجديد، OTelBench، أول معيار مستقل لتقييم قدرة النماذج اللغوية الكبيرة (LLMs) على مهام تهيئة مراقبة أنظمة OpenTelemetry، ما كشف عن فجوة كبيرة بين المهارات البرمجية المُبهرة لهذه النماذج وفعاليتها الحقيقية في مهام هندسة موثوقية الموقع (SRE) في البيئات الإنتاجية. وحسب النتائج، حققت أفضل نموذج متقدم، كلاود أوبوس 4.5، معدل نجاح بلغ 29% فقط في إنجاز مهام التهيئة، مقارنةً بـ80.9% في معيار SWE-Bench، مما يشير إلى أن هذه النماذج ما زالت بعيدة عن التمكن من المهام الحيوية في البيئات الإنتاجية. يُعد التتبع الموزع، الذي يعتمد على نقل السياق (context propagation) بين المكونات المختلفة للنظام، من أكثر المهام تعقيدًا، ويُعدّ حجر الأساس في بناء رؤية شاملة للأنظمة الموزعة. ومع ذلك، أظهرت النتائج أن معظم النماذج لم تتمكن من إنجاز هذه المهمة، ما يشكل مخاطر حقيقية على موثوقية الأنظمة، خاصةً أن توقف النظام قد يكلّف الشركات متوسط 1.4 مليون دولار في الساعة. رغم التقدم المحرز في بعض لغات البرمجة، مثل جو (Go) وC++، حيث أظهرت النماذج نجاحًا متوسطًا، إلا أن الأداء تراجع بشكل كبير في لغات أخرى. ففي لغة جافا سكريبت، PHP، .NET، وبايثون، تم إنجاز بعض المهام، لكنها كانت محدودة. أما في لغة راست (Rust)، فقد نجح نموذج واحد فقط في إكمال مهمة واحدة. وفي لغات مثل سويفت (Swift)، روبي (Ruby)، وجاوا (Java)، لم تتمكن أي من النماذج من إنجاز أي مهمة على الإطلاق. يؤكد جاك مايغدال، المؤسس المشارك لشركة قويسمة، أن "البنية التحتية للصناعة البرمجية تعتمد على أنظمة معقدة وعالية الحجم، وتحتاج إلى موثوقية قصوى"، مشيرًا إلى أن النماذج الحالية، رغم إتقانها لكتابة الكود، لا تزال غير قادرة على أداء المهام الأساسية في التهيئة أو حل المشكلات بشكل متكامل في البيئات الحقيقية. ويحذر من أن كثيرًا من الشركات تروّج لحلول "SRE بالذكاء الاصطناعي" بتصريحات مبالغ فيها، دون أي تحقق مستقل. في سياق ذلك، أطلق قويسمة OTelBench كأداة مفتوحة المصدر، بهدف توفير معيار موحد يمكن للمجتمع التقني والشركات من استخدامه لتقييم تقدم الذكاء الاصطناعي في مجالات مثل التشغيل، الأمان، ونقل قواعد البيانات. ووصف مايغدال هذا المعيار بأنه "نجمة الشمال" في عالم الهوس بالذكاء الاصطناعي، تُسهم في توجيه الابتكار نحو نتائج حقيقية، وليس مجرد تسويق. يمكن الاطلاع على OTelBench وتجربته عبر الموقع الإلكتروني: https://quesma.com/benchmarks/otel/.

الروابط ذات الصلة