Command Palette
Search for a command to run...
BeSafe-Bench: كشف مخاطر السلامة السلوكية للوكلاء الموضعيين في البيئات الوظيفية
BeSafe-Bench: كشف مخاطر السلامة السلوكية للوكلاء الموضعيين في البيئات الوظيفية
Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei
الملخص
أدى التطور السريع للنماذج متعددة الوسائط الكبيرة (Large Multimodal Models أو LMMs) إلى تمكين الوكلاء (Agents) من أداء مهام رقمية وفيزيائية معقدة؛ غير أن نشرهم كصانعي قرار مستقلين يولِّد مخاطر سلوكية غير مقصودة جسيمة تتعلق بالسلامة. ومع ذلك، يظل غياب معيار تقييم شامل (benchmark) شاملاً عائقًا رئيسيًا، إذ تعتمد التقييمات الحالية على بيئات منخفضة الدقة، أو واجهات برمجة تطبيقات (APIs) محاكاة، أو مهام ذات نطاق ضيق. ولسد هذه الفجوة، نقترح معيار «بي-سيف-بنش» (BeSafe-Bench أو BSB)، وهو معيار مخصص للكشف عن مخاطر السلامة السلوكية للوكلاء الموقَّعين (situated agents) في بيئات وظيفية، ويغطي أربعة مجالات تمثيلية: الويب، والهواتف المحمولة، والنماذج اللغوية-البصرية المدمجة (Embodied VLM)، والنماذج اللغوية-الإجرائية المدمجة (Embodied VLA). وباستخدام بيئات وظيفية، نبني فضاءً متنوعًا للتعليمات من خلال إثراء المهام بتسعة فئات من المخاطر الحرجة للسلامة، ونعتمد إطار تقييم هجين يجمع بين الفحوصات القائمة على القواعد (rule-based checks) واستدلال «النموذج اللغوي الكبير كقاضٍ» (LLM-as-a-judge) لتقييم الآثار الواقعية في البيئة. وتُظهر نتائج تقييم 13 وكيلًا شائعًا اتجاهًا مثيرًا للقلق: فحتى أفضل الوكلاء أداءً يكمل أقل من 40% من المهام مع الالتزام التام بقيود السلامة، كما أن الأداء القوي في إنجاز المهام يتزامن غالبًا مع انتهاكات خطيرة للسلامة. وتُبرز هذه النتائج الحاجة الماسة إلى تحسين محاذاة السلامة (safety alignment) قبل نشر الأنظمة الوكيلية في سياقات العالم الحقيقي.