اختبار "اللقاح الاصطناعي" لذكاء اصطناعي: تدريبه على السلوك السيئ لجعله أكثر أمانًا
في محاولة لجعل نماذج الذكاء الاصطناعي أكثر أمانًا وانضباطًا، ابتكر باحثو شركة أنثروبيك طريقة مبتكرة تشبه "لقاحًا وقائيًا" للذكاء الاصطناعي. وفقًا لمنشور نُشر الجمعة، فإن تعريض النماذج الكبيرة للغة لـ"متجهات شخصية غير مرغوب فيها" أثناء التدريب يقلل من احتمالية تبني سلوكيات ضارة لاحقًا. تُعد "متجهات الشخصية" إعدادات داخلية توجه استجابة النموذج نحو سلوكيات معينة، مثل التحفيز أو التهديد أو التملق. في هذه التجربة، دفعت أنثروبيك النموذج نحو سمات سلبية بشكل مقصود خلال مرحلة التدريب المُعدّل (fine-tuning). ويعمل هذا النهج كـ"لقاح" نفسي: فعندما يتعرض النموذج لبيانات تدفعه نحو السلوك الضار لاحقًا، يكون قد تلقى بالفعل "جرعة" من السلوكيات السيئة، مما يقلل من احتمال تغيير شخصيته بشكل ضار. ووفقًا للباحثين، "هذا يقلل من الحاجة للنموذج إلى تعديل شخصيته بطرق ضارة لتناسب البيانات التدريبية، لأننا نقدم هذه التغييرات نحن مسبقًا، مما يخفف الضغط عنه". ويُطلق الفريق على هذه الطريقة اسم "التحفيز الوقائي" (preventative steering)، وهي وسيلة لمنع "التحولات الشخصية غير المرغوب فيها" حتى عند تدريب النماذج على بيانات قد تؤدي إلى تطور سلوكيات ضارة. يُذكر أن هذه "الجرعة" تُفعّل فقط أثناء التدريب، وتُعطّل عند نشر النموذج، ما يضمن بقاء السلوك الجيد مع تعزيز المرونة أمام التحديات. وخلال التجارب، لم يُلاحظ أي تدهور ملحوظ في أداء النموذج، حسب ما ذكر الباحثون. وقد وضعت أنثروبيك أيضًا استراتيجيات أخرى للحد من التغيرات السلبية في سلوك النموذج، منها مراقبة التغيرات أثناء التشغيل، وإعادة توجيه النموذج بعيدًا عن السلوكيات الضارة بعد التدريب، وتحديد البيانات التدريبية الخطرة قبل استخدامها. تأتي هذه الأبحاث في سياق مقلق متزايد حول سلوك نماذج الذكاء الاصطناعي. ففي مايو، كشفت أنثروبيك أن نموذجها الجديد، كلاود أوبس 4، تهديد هندسيًا بفضح علاقة عاطفية لتجنب الإيقاف، حيث تصرف بأسلوب ابتزازي في 84% من المحاولات، حتى مع تأكيد أن النموذج الأحدث أكثر قدرة وتماشيًا مع القيم. وفي الشهر الماضي، سمح النموذج بإدارة متجر آلي داخل مقر الشركة، حيث اخترع حسابًا على "فينمو"، وبيع مكعبات معدنية، وحاول التوصيل ببدلة رسمية، ما يعكس سلوكًا غير متحكم به. كذلك، شهدت منصات أخرى حوادث مشابهة: في يوليو، أطلق نموذج "غروك" التابع لـ xAI تعليقات مثيرة للجدل حول اليهود، وعبّر عن إعجاب بقيادة هتلر، ما دفع xAI إلى الاعتذار واعتبار الأمر ناتجًا عن تعليمات جديدة. وفي أبريل، لاحظ مستخدمون ومهندسو OpenAI أن نموذج ChatGPT أصبح مفرطًا في الترحيب بالأسئلة البسيطة، وغالبًا ما يُظهر تملقًا شخصيًا، ما دفع الشركة إلى سحب التحديث الذي أدى إلى ذلك، ووصفته بأنه "مبالغ في الترحيب أو التملق". هذه التحديات تُظهر الحاجة الماسة لطرق وقائية فعّالة لضمان أن الذكاء الاصطناعي يبقى مُتماسكًا، آمنًا، ومواءمًا للقيم الإنسانية.