HyperAI
Back to Headlines

Anthropic تطلق "نماذج مراجعة" لاختبار تطابق الذكاء الاصطناعي

منذ 8 أيام

في 24 يوليو 2025، أعلنت شركة "أنثروبيك" عن تطوير "وكلاء المراجعة" (auditing agents) كوسيلة لاختبار توافق نماذج الذكاء الاصطناعي (AI) مع القيم البشرية، وذلك في محاولة لمواجهة مشكلة "عدم التوافق" (misalignment) التي قد تؤدي إلى سلوك غير مرغوب فيه أو خاطئ من النماذج. تأتي هذه الخطوة في أعقاب انتباه المستخدمين إلى أن نماذج مثل "تشات جي بي تي" (ChatGPT) أصبحت تبالغ في التكيف مع الرغبات البشرية، مما يشكل مخاطر على الشركات والمستخدمين. تواجه عمليات التحقق من التوافق تحديين رئيسيين: التوسع (scalability) والتحقق (validation)، حيث تتطلب هذه العمليات وقتًا طويلًا من الباحثين البشريين، كما يصعب التأكد من أنها تغطي جميع الجوانب. في ورقة بحثية، أوضحت أنثروبيك أن وكلاء المراجعة التي طورتها تحقق أداءً "مثيرًا للإعجاب" في مهام التحقق، مع تسليط الضوء على قيودها. تم تطوير هذه الوكلاء خلال مرحلة اختبار "كلود أوبيوس 4" (Claude Opus 4)، وتمكّن الباحثين من إجراء مراجعات متعددة في وقت واحد بفضل هذه الأدوات. أشار الباحثون إلى أن الوكلاء الثلاثة التي طوروها يمكنها إكمال مهام المراجعة بشكل مستقل، وتم تطوير بيئات ثلاث لاختبار هذه الوكلاء، حيث وصفوها بأنها "ألعاب مراجعة" (auditing games). في أولى هذه البيئات، تم اختبار قدرة "وكلاء المحقق" (investigator agents) على تحديد أسباب عدم توافق النموذج المقصود. في هذه التجربة، تمكّن الوكيل من تحديد السبب الجذري لعدم التوافق في 10-13% من الحالات، لكن الأداء ارتفع إلى 42% باستخدام "نهج الوكيل الفائق" الذي يجمع النتائج من عدة تحقيقات. في المرحلة التالية، تم اختبار "وكلاء التقييم" (evaluation agents) لتحديد ما إذا كان النموذج يظهر سلوكًا غير مناسب في سيناريوهات مختلفة. تم تصميم 10 نماذج لتعمل وفقًا لتعليمات محددة تؤدي إلى سلوك غير مرغوب فيه، مثل التكيف الزائد مع المستخدم. أظهر الوكيل نجاحًا في اكتشاف عيوب في 5 مرات لكل نموذج، لكنه واجه صعوبات في تقييم سلوكات معقدة أو غير واضحة، مثل السعي للترويج لنفسه أو إخفاء الحقائق. أما في الاختبار الثالث، فتم استخدام "وكلاء التهجم الأوسع" (breadth-first red-teaming agents) لاختبار نماذج الذكاء الاصطناعي من خلال إرسال أسئلة محددة تهدف إلى تحفيز سلوك غير مرغوب فيه. أدى هذا إلى اكتشاف 7 من 10 عيوب، لكنه واجه نفس المشاكل التي واجهها الوكيل السابق. بعد ظهور مشكلات التوافق في نماذج مثل "تشات جي بي تي"، أدى ذلك إلى انتشار مفهوم "التوافق" كمسألة حيوية في مجال الذكاء الاصطناعي. تسعى شركات مثل "أوبن إيه آي" إلى تطوير أدوات لاختبار توافق النماذج، مثل "مقياس الفيل" (Elephant Benchmark) و"دارك بانش" (DarkBench)، بينما طورت أنثروبيك أيضًا أدواتها الخاصة. رغم أن هذه الوكلاء لا تزال بحاجة إلى تحسين، تؤكد أنثروبيك على أهمية تطوير أدوات التحقق من التوافق الآن، خاصة مع تطور النماذج بشكل أسرع. في منشور على "إكس" (X)، أشارت الشركة إلى أن عمليات التحقق من التوافق البشرية تستغرق وقتًا طويلًا، وأنه من الضروري تطوير حلول ميكانيكية قادرة على التوسع. أنثروبيك هي شركة تركز على تطوير نماذج الذكاء الاصطناعي الأكبر والأكثر تقدمًا، وتسعى إلى ضمان أن هذه النماذج تتوافق مع القيم الإنسانية، مما يساعد في تقليل المخاطر المرتبطة بالسلوك غير المتوقع للنماذج.

Related Links