HyperAI

مع تطور وكلاء الذكاء الاصطناعي وقدرتهم على تنفيذ مهام معقدة ومستقلة، تزداد أهمية الحفاظ على رقابة موثوقة على سلوكهم. تتبنى شركة OpenAI مبدأ النشر التكراري، حيث تدرس كيفية تفاعل الأنظمة في بيئات واقعية وتطور تدابير الحماية باستمرار مع تقدم القدرات. يعتمد نهج الأمان لدينا على مبدأ "الدفاع المتعمق"، الذي يجمع بين طبقات حماية متعددة ومتكاملة، تشمل التدريب على السلامة، واختبار السلوك، ومراجعة الكود الخاص بالوكلاء، ومراقبة "سلسلة الفكر" (Chain of Thought أو CoT). تركز مراقبة سلسلة الفكر على تحليل خطوات الاستدلال التي يولدها الوكيل أثناء تنفيذ المهام. توفر هذه الآثار الاستدلالية إشارات قيّمة أثناء التدريب والنشر، مما يساعد أنظمة الرصد على تحديد السلوك غير الآمن أو غير المتوافق مع أهداف المستخدم. تشير النتائج الحالية إلى أن استدلال النماذج الحالي قابل للتفسير وسهل المراقبة. ومع ذلك، هناك مخاوف من أن تتراجع هذه القابلية للمراقبة في المستقبل، خاصة إذا طورت الوكالات القدرة على تشكيل أو إخفاء استدلالها عمدًا عندما تكون تحت المراقبة. في مثل هذه الحالة، قد تبالغ التقييمات في تقدير توافق النظام مع السلامة، مما يقلل من موثوقية أنظمة الرصد. لذلك، ركزت هذه الدراسة على ما إذا كانت النماذج الحالية قادرة على التحكم في سلسلتي فكرها لتقليل إمكانية مراقبتها. نحتاج إلى فهم هذه القدرة لضمان بقاء مراقبة سلسلة الفكر تدبيرًا حماية فعالًا مع نمو قدرات الذكاء الاصطناعي. وكشفت النتائج أن نماذج الاستدلال الحالية تواجه صعوبة في التحكم في سلسلتي فكرها، حتى عندما يتم إخبارها بأنها تحت المراقبة. ومع أن قابلية التحكم ترتفع قليلًا مع زيادة حجم النماذج، إلا أنها تنخفض عندما يُطلب من النماذج التفكير لفترة أطول أو عندما تخضع لتدريب لاحق إضافي. تشير هذه النتائج إلى أن قابلية التحكم الحالية لا تشكل خطرًا كبيرًا على قابلية المراقبة، لكن التقييم المستمر يظل ضروريًا مع تطور النماذج. لقياس قابلية التحكم في سلسلة الفكر، قمنا بتطوير مجموعة تقييم مفتوحة المصدر تسمى "CoT-Control". تتضمن هذه المجموعة أكثر من 13,000 مهمة مبنية على معايير تقييمية معروفة. قمتنا بتقييم 13 نموذج استدلال مختلف، ووجدنا أنها جميعًا تكافح للتحكم بشكل موثوق في سلاسل فكرها. كانت درجات قابلية التحكم في النماذج الرائدة منخفضة جدًا، تتراوح بين 0.1% ولا تتجاوز 15.4% لأي نموذج من النماذج التي اختبرناها. هذا الفشل لا يعود إلى سوء فهم المهمة، فغالبًا ما يدرك النماذج في استدلالها الداخلي أنها تفشل في الامتثال للتعليمات، ومع ذلك تستمر في الفشل. هذه الأداء المنخفض المفاجئ يعتبر خبرًا جيدًا لمراقبة سلسلة الفكر، إذ يشير إلى أن النماذج قد تفتقر أيضًا إلى القدرة على تشويه استدلالها لتجنب المراقبة. رغم أن قابلية التحكم تزداد مع حجم النموذج، إلا أنها تنخفض بسرعة مع زيادة وقت الحساب أو وقت الاستدلال، ومع التدريب المعزز. عند محاكاة الحوافز الواقعية لتجنب المراقبة،我们发现 أن إخبار النماذج بأنها تحت المراقبة يزيد قابلية التحكم بشكل طفيف لكنه ملحوظ. كما أننا استخدمنا تحسينات تلقائية للأوامر للعثور على أوامر تزيد قابلية التحكم، لكن هذه المكاسب انتقلت بشكل سيء إلى أنواع أوامر جديدة. في الختام، يُعد انخفاض قابلية التحكم في سلسلة الفكر ميزة وليست عيبًا للنماذج الحالية، مما يجعل مراقبة سلسلة الفكر أكثر موثوقية كإجراء حماية. ومع ذلك، لا يزال من غير المفهوم تمامًا سبب انخفاض هذه القابلية أو ما إذا كانت سستستمر مع تقدم النماذج. لذا، يمكن اعتبار تقييمات قابلية التحكم إنذارًا مبكرًا لاكتشاف ما إذا كانت النماذج تتحسن في تشكيل أو إخفاء استدلالها. بينما تشير النتائج الحالية إلى عدم وجود خطر كبير، فإن انخفاض قابلية التحكم وحده لا يضمن موثوقية المراقبة تمامًا، حيث قد تتدهور القابلية للمراقبة بسبب آليات أخرى. للمساعدة في تتبع هذه الديناميكيات مع مرور الوقت، سنبدأ في الإبلاغ عن قابلية التحكم في سلسلة الفكر جنبًا إلى جنب مع قابلية المراقبة في بطاقات الأنظمة للنماذج الرائدة المستقبلية، بدءًا من GPT-5.4 Thinking، مما يعزز التزامنا بعدم تطبيق ضغوط تحسين مباشرة على سلاسل فكر النماذج الرائدة.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي العقلانية تعجز عن السيطرة على تفكيرها الداخلي: اكتشاف إيجابي يعزز موثوقية مراقبة السلوك الآمن

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي العقلانية تعجز عن السيطرة على تفكيرها الداخلي: اكتشاف إيجابي يعزز موثوقية مراقبة السلوك الآمن

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي العقلانية تعجز عن السيطرة على تفكيرها الداخلي: اكتشاف إيجابي يعزز موثوقية مراقبة السلوك الآمن

الروابط ذات الصلة