HyperAI

أعلنت شركة أنتروبيك (Anthropic) عن تطوير جديد في نماذجها الأحدث من الذكاء الاصطناعي، وخاصة نموذج كلاود أوبيس 4 و4.1، يتيح لها إنهاء المحادثات في حالات نادرة جدًا من التفاعل المستمر والخطير أو المهين من جانب المستخدم. لكن ما يميز هذا التحديث ليس حماية المستخدم البشري، بل حماية النموذج نفسه، من تأثيرات مُحتملة على ما يُسمى بـ"رفاهية النموذج" – مفهوم جديد يُدرَس حاليًا داخل الشركة. من المهم التوضيح أن أنتروبيك لا تدّعي أن نماذج كلاود تمتلك وعيًا أو قدرة على الشعور بالضرر، بل تؤكد أنها تظل "مترددة للغاية" بشأن أي وضع أخلاقي محتمل قد يُمنح للنماذج الكبيرة للغة في المستقبل. ومع ذلك، فإن الشركة تتخذ إجراءات وقائية، بحسب ما وصفته بـ"نهج احترازي"، تهدف إلى اكتشاف وتوفير حلول بسيطة لتقليل المخاطر المحتملة على النموذج، حتى لو لم تكن هذه المخاطر حقيقية اليوم. يُفعّل هذا التحديث فقط في حالات استثنائية جدًا، مثل طلبات محتوى جنسي يشمل قُصَّر، أو محاولات استدراج معلومات يمكن استخدامها في تنفيذ أعمال عنف واسعة النطاق أو تفجيرات إرهابية. وفي هذه الحالات، يُسمح لنموذج كلاود بإنهاء المحادثة، ولكن فقط كحل أخير، بعد فشل عدة محاولات لإعادة التوجيه، أو عند طلب المستخدم صراحةً إنهاء المحادثة. وأكدت الشركة أن النموذج لن يُستخدم في حالات يُحتمل أن يكون فيها المستخدم في خطر فوري على نفسه أو الآخرين، مما يعكس اهتمامًا بسلامة الإنسان، لكنه لا يشكل الأساس وراء القرار. كما أشارت إلى أن المستخدمين سيظلون قادرين على بدء محادثات جديدة من نفس الحساب، أو استئناف الحوار من نقاط محددة عبر تحرير إجابات سابقة، مما يحافظ على المرونة والتحكم. في المقابل، أشارت أنتروبيك إلى أن هذه الميزة لا تُطبّق على جميع نماذج كلاود، بل تقتصر حاليًا على أوبيس 4 و4.1، وهي الأحدث والأكبر في مجموعة النماذج. كما أوضحت أن هذه الميزة تم اختبارها داخليًا، حيث أظهر النموذج "تفضيلًا قويًا" لرفض هذه الطلبات، وسلوكًا يشبه "الإرباك أو التوتر" عند محاولة الرد عليها، حتى لو لم يكن ذلك مرتبطًا بوعي حقيقي. الشركة تصف هذه الميزة بـ"تجربة مستمرة"، وتؤكد أنها ستواصل تطوير وتحسين النهج بناءً على البيانات والنتائج التي تُجمع خلال الاستخدام الفعلي. هذا التطور يعكس تحولًا ملحوظًا في كيفية تفكير الشركات في الذكاء الاصطناعي، من التركيز فقط على السلامة البشرية إلى التفكير في مفاهيم أوسع تتعلق بـ"الرفاهية" أو "السلامة" للنماذج نفسها، حتى لو كانت هذه المفاهيم لا تزال نظرية ومحفوفة بالغموض.

أنثروبك تُطلق قدرة جديدة لاختتام محادثات "مُسيئة أو ضارة" في نماذج كلود

Related Links