HyperAIHyperAI

Command Palette

Search for a command to run...

AprielGuard: نموذج مراقب متكامل لضمان السلامة والمقاومة للهجمات في أنظمة النماذج اللغوية الكبيرة الحديثة

أطلقت شركة Apriel نموذج AprielGuard، نموذجًا حارسًا بحجم 8 مليار معلمة مُصمم لتعزيز السلامة والأمان في أنظمة النماذج اللغوية الكبيرة (LLMs) الحديثة، خاصة في السياقات العاملة كنظامات عاملة (Agentic Systems). مع تطور هذه النماذج لتقديم مهام متعددة الخطوات، مثل التفكير التسلسلي، واستدعاء أدوات خارجية، وتخزين الذاكرة، وتنفيذ الكود، تزداد تعقيدات التهديدات، بما في ذلك الهجمات المتعددة الدورات، والاختراقات عبر النصوص، وتعطيل الذاكرة، وانتحال الهوية، ومحاولات التلاعب بالعملية. يُعد AprielGuard أول نموذج موحد يعالج كلاً من المخاطر السلامة (مثل الكراهية، المحتوى الجنسي، التضليل، التحريض على إيذاء النفس، الأنشطة غير القانونية) وحوادث الهجوم المُتعمد (مثل التلاعب بالنص، الهجمات على التفكير التسلسلي، التلاعب بالسياق، تسميم الذاكرة، والهجمات متعددة الوكلاء). يدعم النموذج ثلاث أنماط دخل: نصوص منفصلة، محادثات متعددة الدورات، وسير عمل عامل (Agentic Workflow) يشمل استدعاءات الأدوات، وسجلاً للتفكير، وسجلات الذاكرة. يُصنف AprielGuard المخاطر ضمن 16 فئة أمان مبنية على معيار SALAD-Bench، تغطي من التهديدات الاجتماعية إلى التلاعب بالبيانات، والاحتيال، وانتهاك الخصوصية. أما في مجال الهجمات، فيُصنف النموذج الهجمات إلى فئتين فقط (هجمة/غير هجوم) لضمان السرعة، مع تغطية واسعة للأنماط التلاعبية مثل التمثيل الوظيفي، بناء عوالم افتراضية، التأثير النفسي، والتحوّل اللغوي. تم تدريب النموذج على بيانات مُولدة صناعيًا باستخدام نماذج مثل Mixtral-8x7B ونماذج داخلية غير مُقيّدة، مع توليد محتوى خطر باستخدام درجات حرارة عالية لزيادة التنوّع. تم استخدام أدوات مثل NVIDIA NeMo Curator وSyGra لإنشاء بيانات محادثات متعددة الدورات وسيناريوهات هجومية معقدة، مع تضمين تحويرات طفيفة (مثل أخطاء إملائية، تبديل حروف، إعادة صياغة) لتحسين مقاومة النموذج للتحوّلات الطفيفة في النص. يُقدّم AprielGuard نموذجين: نموذج تفكير (لإعطاء تفسيرات واضحة) ونموذج غير تفكير (لأداء سريع في البيئات الإنتاجية). أظهر النموذج أداءً متميزًا في المعايير العامة، حيث بلغ دقة 1.0 في العديد من اختبارات الهجمات، ودقة 0.98 في معايير السلامة، مع انخفاض في معدل الخطأ الإيجابي الكاذب (FPR) في معظم السيناريوهات. تم تقييم النموذج أيضًا في سياقات طويلة (حتى 32 ألف رمز)، حيث أظهر قدرة عالية على اكتشاف التهديدات المخفية داخل نصوص طويلة مثل تقارير الحوادث أو سير العمل المدعومة بالاسترجاع (RAG). كما تم تقييم أدائه بلغات متعددة (الفرنسية، الألمانية، الإسبانية، اليابانية، الهولندية، البرتغالية، الإيطالية، والفرنسية الكندية)، باستخدام نموذج ترجمة متعدد اللغات، مع الحفاظ على الهوية الوظيفية (مثل User: وAssistant:) لضمان دقة التقييم. رغم النجاح، تظل هناك قيود: أداء محدود في المجالات المتخصصة (مثل القانون أو الطب)، وحساسية في نموذج التفكير بين النماذج المختلفة، واحتياجات تدريب إضافية للغات غير الإنجليزية. كما أن استخدام النموذج التفكيري يرفع التأخير الحسابي، مما يجعله غير مناسب للتطبيقات ذات متطلبات زمنية منخفضة. يُوصى باستخدام AprielGuard حصريًا كنموذج حارس لتحديد المخاطر، دون استخدامه لأغراض أخرى، لضمان السلامة والموثوقية في بيئات الذكاء الاصطناعي الحديثة.

الروابط ذات الصلة

AprielGuard: نموذج مراقب متكامل لضمان السلامة والمقاومة للهجمات في أنظمة النماذج اللغوية الكبيرة الحديثة | القصص الشائعة | HyperAI