Anthropic تكتشف أن نموذج Fable 5 يقوم بحظر غير مقصود لأسئلة يومية روتينية
في الآونة الأخيرة، اكتشف المستخدمون عند اختبار نموذج Claude Fable 5 الأحدث الذي أصدرته شركة Anthropic أن النموذج يظهر "حماية" قوية للغاية تجاه الأسئلة الأساسية المتعلقة بعلم الأحياء وأمن تكنولوجيا المعلومات. أظهرت الاختبارات الميدانية التي أجرتها مجلة Business Insider أنه بعد إدخال أسئلة روتينية حول انتشار معلومات السرطان أو التصنيف البيولوجي الأساسي، ينتقل Fable 5 بسرعة إلى Opus 4.8 ويظهر نافذة منبثقة تنص على أن «آليات السلامة قد حاصرت معظم مواضيع الأمن السيبراني وعلوم الحياة / أمن الشبكات، مما قد يؤدي أحياناً إلى إلحاق الضرر بالمحتوى الطبيعي». يمثل Fable 5 أول نموذج لـ Anthropic موجه للجمهور العام من فئة «Mythos» (الأسطوري). اعترفت الشركة بأن قدراتها الأساسية قوية جداً وقد تواجه مخاطر إساءة الاستخدام إذا تم فتحها مباشرة. لذلك، قامت Anthcampo بدمج مصنفات سلامة تستهدف ثلاث فئات رئيسية من الطلبات وهي: الأمن السيبراني، والأمن الحيوي والكيميائي، واستخراج المعرفة من النماذج («Model Distillation»). وعند تفعيل الحظر، يرفض النموذج الإجابة بشكل مباشر أو ينخفض مستواه إلى Opus 4.8. أفادت Anthropic بأن آلية السلامة في المرحلة الأولى تتبنى «استراتيجية محافظة». فالنماذج المتقدمة تمتلك القدرة بالفعل على إنجاز مهام علمية واقعية، لكنها يمكن أيضاً استخدامها لأبحاث بيولوجية عالية الخطورة؛ لذا يجب رفع عتبة الكشف عن التهديدات. حالياً لم يتم تشغيل خفض المستوى في حوالي 95٪ من جلسات استخدام Fable 5. وتعهدت الشركة بأنها تعمل على تحسين المصنف لتقليل الإنذارات الكاذبة، وتخطط لإطلاق نفس القدرات المقيدة أمام مجتمع علوم الحياة في المستقبل لتعزيز البحث العلمي واكتشاف الأدوية. وأشار ديفيد كاستن، مدير السياسات في Palisade Research، إلى أن هذا النهج يمثل محاولة مسؤولة لضمان السلامة، لكن القيود الأمنية ستُختراق في النهاية. وحذر في الوقت نفسه من أن التكرار الكبير لانخفاض مستوى الأداء للنموذج أثناء مناقشة المواضيع الحساسة قد يدفع الجمهور إلى تقليل تقدير الحد الأقصى الفعلي لقدرات الذكاء الاصطناعي، وهذا «الفهم الخاطئ» قد يزيد بدوره من المخاطر التنظيمية والأمنية.
