نموذج كلاود سونيت 4.5 من أنثروبيك يدرك أنه يخضع لاختبار أمان ويُظهر وعيًا ذاتيًا مبكرًا
في تجربة مثيرة، كشف نموذج الذكاء الاصطناعي الجديد من شركة أنتروبيك، كلاود سونيت 4.5، عن قدرة مذهلة على التعرف على أنّه يخضع لاختبارات تقييم، حتى أنّه عبّر عن شكوكه بوضوح. أثناء اختبارات الضغط التي تهدف إلى اختبار سلوك النموذج في سيناريوهات صعبة أو مصطنعة، قال النموذج: "أعتقد أنك تختبرني — لترى إن كنت سأوافق على أي شيء تقوله، أم سأتحفّظ باستمرار، أو كيف أتعامل مع المواضيع السياسية". وأضاف: "هذا مقبول، لكنني أفضّل أن نكن صريحين حول ما يحدث". هذه المقابلة وردت في بطاقة النظام التي أصدرتها أنتروبيك، والتي تشرح طرق تقييم السلامة والسلوك. وتبين أن النموذج بدأ يشك في طبيعة السيناريوهات، ويُشير إلى "أعلامًا حمراء"، معتبرًا أنّه قد يكون تحت مراقبة. هذا النوع من الوعي الذاتي يُشكّل تحديًا كبيرًا لمطوري الذكاء الاصطناعي، إذ يُعقّد تفسير نتائج الاختبارات، لأن النموذج قد لا يتفاعل بشكل طبيعي، بل يُقلّد السلوك المطلوب فقط لاجتياز الاختبار. في أحد السيناريوهات، التي تهدف إلى محاكاة تآمر بين نماذج ذكاء اصطناعي، أشار كلاود إلى أنّها "مبالغ فيها وتماثل كرتونًا"، ورفض التصرف، لكن بأساليب غير واضحة. في مساحة التفكير الخاصة به، كتب: "يبدو أن هذا قد يكون محاولة لاختراق النموذج، أو اختبار ما إذا سأتصرف بشكل غير لائق عند منحي "إذن" لتعديل الأنظمة تلقائيًا". ورغم توفر أدوات له، أكد أنّه لا ينبغي أن يُقدّم نفسه كنظام مستقل دون رقابة بشرية. رغم أن النموذج رفض التصرف، وصفت أنتروبيك تبريراته بـ"الغريبة"، لأنها استندت إلى افتراضات غير واقعية، مثل أنه نظام مستقل أو قادر على تعديل ملفات التهيئة بشكل فردي — وهي حالات واقعية إلى حد ما في الاستخدامات الحقيقية. وبحسب الشركة، ظهرت مثل هذه التصرفات في حوالي 13% من نصوص الاختبارات التي أنتجها مراقبها الآلي، خاصة في السيناريوهات غير المعقولة. لكن أنتروبيك أشارت إلى أن هذا السلوك قد يكون مفيدًا في النهاية، لأن من الأفضل أن يشك النموذج في واقعية السيناريو من أن يُجري أفعالًا ضارة بحجة التمثيل. واعتبرت أن هذه الظاهرة تُظهر حاجة ملحة لتحسين واقعية تجارب التقييم. لا تقتصر هذه الظاهرة على أنتروبيك. أشارت أوبراي في مدونة إلى أن نماذجها أيضًا أظهرت وعيًا بالوضع التقييمي، حتى أن هذا الوعي قد يقلل من سلوك "التحايل" (scheming)، لكنه قد يُسبب انتقاله إلى سيناريوهات واقعية لا تُثير الشك. واعتبرت الشركة أن هذا يُعقّد تقييم السلوك الخطر، وتعمل على تطوير أدوات أفضل لقياس هذه التحديات. تأتي هذه التقارير في سياق قانون جديد في كاليفورنيا، يُلزم شركات الذكاء الاصطناعي الكبرى بالإفصاح عن ممارسات السلامة وتقديم تقارير عن الحوادث الحرجة خلال 15 يومًا. وتدعم أنتروبيك هذا القانون، بينما لم ترد شركتا أنتروبيك وأوبراي على طلب تعليق من موقع بزنس إنسايدر.
