نماذج Claude 4.5 تتفوق على البشر في اختبار برمجة شهير لـ Anthropic
أعلنت شركة أنثروبيك عن إطلاق نموذجها الجديد Claude Opus 4.5، الذي أظهر أداءً متفوقًا على البشر في اختبار هندسي تجريبي، وفقًا لما ذكرته الشركة في مدونتها. ويُعد هذا الاختبار من أصعب الاختبارات التي تُعطى للمتقدمين لوظائف هندسية في الشركة، حيث يستغرق ساعتين ويهدف إلى تقييم المهارات التقنية والقدرة على اتخاذ قرارات دقيقة تحت ضغط الوقت. وأفادت أنثروبيك بأن النموذج الذكي الجديد سجل نقاطًا أعلى من أي مرشح بشري على الإطلاق في هذا الاختبار، مما يعكس تقدمًا كبيرًا في قدرات الذكاء الاصطناعي على مستوى حل المشكلات البرمجية المعقدة. على الرغم من عدم الكشف عن التفاصيل الدقيقة حول محتوى الاختبار، إلا أن تقارير سابقة على منصة Glassdoor أشارت إلى أنه يتضمن أربع مستويات، تتطلب من المتقدمين بناء نظام معين وإضافة وظائف إليه. ومن غير الواضح ما إذا كان الاختبار الذي تم تطبيقه على Claude Opus 4.5 مطابقًا لهذا الشكل، إذ لم تقدم الشركة أي تفاصيل إضافية، ولم ترد على طلبات التعليق. يأتي إطلاق النموذج الجديد بعد ثلاثة أشهر فقط من إطلاق النسخة السابقة، ويأتي مدعومًا بتحسينات في مجالات متعددة، منها إنشاء مستندات احترافية مثل جداول إكسل وعروض باوربوينت، إلى جانب التطورات الكبيرة في الكتابة البرمجية. ويُعزز هذا التطور من المكانة التي تتمتع بها أنثروبيك في مجال الذكاء الاصطناعي المخصص للتطوير البرمجي، حتى أن شركة ميتا، التي يقودها مارك زوكربيرغ، تستخدم نموذج Claude ضمن أداتها الداخلية "Devmate" لمساعدة فرق التطوير، رغم التنافس الكبير بين الشركتين في سباق الذكاء الاصطناعي. ووفقًا لما ذكره إريك سيمونز، الرئيس التنفيذي لشركة Stackblitz، فإن أنثروبيك ربما استخدمت نماذجها الذكية لكتابة الكود ونشره بشكل تلقائي، ثم قامت بمراجعته باستخدام كلاً من البشر والأدوات الذكية. وقد أكد ديانا بين، مديرة المنتج والبحث والابتكار في أنثروبيك، أن هذه الوصف "عامّاً صحيح". وفي مؤتمر دريم فورس أكتوبر الماضي، قال الرئيس التنفيذي لشركة أنثروبيك، داريو أمودي، إن النموذج الذكي يكتب ما يقارب 90% من الكود المستخدم في الشركة، لكنه أوضح أن ذلك لا يعني استبدال المهندسين، بل يعكس تحولًا في أدوارهم. وأضاف أن المهندسين يصبحون أكثر كفاءة، إذ يمكنهم التركيز على الجزء الصعب من العمل، مثل المراجعة أو الإشراف على عدة نماذج ذكية في آن واحد، مما يرفع إنتاجية الفرق بشكل كبير.
