"الصينية ريدوود تطلق xbench: منصة جديدة لتقييم إنتاجية الذكاء الصناعي في العالم الحقيقي"
في ظل التطور السريع لتقنيات الذكاء الصناعي، أصبح من الضروري وضع مقاييس جديدة لتقييم قدرات الأنظمة الذكية في بيئات العمل الحقيقية. لذا، أطلقت شركة Sequoia China (سِكويا الصين) حزمة تقييم AGI Tracking (تقييم تقنية الذكاء الصناعي العام)، والتي تهدف إلى توفير مقاييس دقيقة ومعترف بها دوليًا لقياس أداء الأنظمة الذكائية في سياقات علمية ومهنية متنوعة. تحتوي حزمة التقييم على قسمين رئيسيين: xbench-ScienceQA (xbench- أسئلة العلوم) و xbench-DeepSearch (xbench- البحث العميق). xbench-ScienceQA يركز هذا القسم على تقييم قدرات الأنظمة الذكائية في فهم المعرفة العلمية وتطبيقها. يتضمن مجموعة من الأسئلة عالية الجودة التي تم جمعها من مصادر موثوقة ومتنوعة، مثل الاختبارات التعليمية والبحوث العلمية. يتم تحديث المجموعة بشكل ربع سنوي للحفاظ على صحة الأسئلة ودقتها، مع وجود إجراءات فعالة لفحص وضمان جودة البيانات. يتم تصميم الأسئلة لتحقيق التوازن بين الصعوبة والشمولية، مما يضمن تقييم شامل لقدرات النظام الذكائي. xbench-DeepSearch هذا القسم مخصص لتقييم قدرات الأنظمة الذكائية في البحث العميق، خاصة في بيئات الإنترنت الصينية. يتطلب من الأنظمة الذكائية امتلاك مهارات متكاملة تشمل التخطيط الذاتي، جمع المعلومات، تحليل البيانات، وتقديم استنتاجات منطقية. يتم تصميم الأسئلة بواسطة الخبراء ويتم اختبارها وتجريبها قبل الإصدار لضمان دقّتها وصدقها. يتم تحديث هذه المجموعة أيضًا بشكل ربع سنوي وتوفير تقارير شهرية لأحدث النماذج. Profession-Aligned (المهنة المتوازنة) القسم الثالث من حزمة التقييم هو "Profession-Aligned"، الذي يقيس قيمة الأداء الفعلي للأنظمة الذكائية في بيئات العمل الحقيقية. يتم اعتبار النظام الذكائي كـ "عامل رقمي" يتم تقييمه في سياق الأعمال اليومية. يتم التركيز على النتائج العملية والقيمة التجارية، وليس فقط على الحلول التقنية. تسعى هذه المقاييس إلى تحديد معايير واضحة للقيمة العملية للأداء الذكائي، حتى قبل أن تصبح هذه التقنيات شائعة الاستخدام. الهدف من xbench تم تطوير xbench لمواجهة مشكلة عدم الدقة التي قد تنتج عن استخدام مجموعات أسئلة ثابتة ومستقرة في تقييم الأنظمة الذكائية. يعتمد xbench على نظام "التقييم الدائم (Evergreen Evaluation)"، حيث يتم الحفاظ على تحديث المحتوى بشكل مستمر لضمان فعالية التقييم ومواءمته مع التطورات الحديثة. هذا النظام يوفر منهجية تقييم موثوقة ومتنامية لتتبع التقدم في مجال الذكاء الصناعي. تطبيقات وآفاق بالنسبة لحزمة تقييم AGI Tracking، يأمل xbench في تقديم أدوات تقييم متطورة تساعد في تطوير الأبحاث الأكاديمية وتعزز الشفافية والمشاركة بين مختلف الأطراف المعنية. كما يسعى إلى توفير تقييمات مستقلة وموثوقة لتحديد ما إذا كانت النماذج الذكائية قد حققت قيمة تجارية حقيقية وما إذا كانت قادرة على التعامل مع عمليات الأعمال الحالية وتقديم خدمات معيارية. الخلاصة حزمة تقييم xbench من Sequoia China تمثل خطوة مهمة نحو تقييم أكثر دقة وشفافية لقدرات الأنظمة الذكائية في بيئات العمل الحقيقية. من خلال تركيزها على التحديث المستمر وإشراك الخبراء، تسعى هذه الحزمة إلى تقديم معايير واضحة وموثوقة تساعد في تطوير وتحسين الذكاء الصناعي، مما يعزز فرصه في الاندماج بشكل فعال في مختلف القطاعات المهنية.