HyperAIHyperAI

Command Palette

Search for a command to run...

آثار الاستدلال الآمن: قياس وتخفيف تسرب سلسلة التفكير في نماذج اللغات الكبيرة (LLMs)

Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh

الملخص

يُحسّن أسلوب الاستدلال المتسلسل (Chain-of-Thought أو CoT) في النماذج اللغوية الكبيرة (LLMs) من قدرات الاستدلال، غير أنه قد يزيد من مخاطر الخصوصية بإعادة إظهار المعلومات الشخصية القابلة للتحديد (PII) الواردة في المدخلات ضمن مسارات الاستدلال والمخرجات، حتى في ظل سياسات تأمر النموذج بعدم إعادة صياغة هذه المعلومات. نفحص في هذه الدراسة تسرّب المعلومات الشخصية مباشرةً أثناء الاستدلال باستخدام إطار عمل مستقل عن النموذج، يقوم بـ: (أ) تعريف التسرّب كحدث على مستوى الرمز (token) مرجّح بالمخاطر عبر 11 نوعاً من المعلومات الشخصية القابلة للتحديد؛ (ب) تتبع منحنيات التسرّب كدالة في ميزانية الاستدلال المتسلسل المسموح بها؛ و(ج) مقارنة عائلات النماذج مفتوحة المصدر ومغلقة المصدر باستخدام مجموعة بيانات منظمة للمعلومات الشخصية القابلة للتحديد وتصنيف هرمي للمخاطر. نلاحظ أن أسلوب الاستدلال المتسلسل يرفع مستوى التسرّب بشكل ثابت، لا سيما في الفئات عالية المخاطر، وأن درجة التسرّب تعتمد بقوة على عائلة النموذج وعلى الميزانية المخصصة. وقد يؤدي زيادة ميزانية الاستدلال إما إلى تضخيم التسرّب أو إلى تخفيفه، وذلك وفقاً للنموذج الأساسي. ثم نقارن أداء بوابات خفيفة الوزن تُنفَّذ أثناء الاستدلال، وهي: كاشف قائم على القواعد، ومصنّف يجمع بين تمثيل TF-IDF والانحدار اللوجستي، ونموذج استخلاص الكيانات المسماة (NER) مبني على GLiNER، ونموذج لغوي كبير يعمل كحكم (LLM-as-judge)، وذلك باستخدام مقاييس F1 المرجّح بالمخاطر، وMacro-F1، والاستدعاء (recall). لا تتفوّق طريقة واحدة بشكل مطلق عبر النماذج أو الميزانيات، ما يدعو إلى اعتماد سياسات بوابة هجينة متكيفة مع الأسلوب، توازن بين الفعالية والمخاطر في إطار بروتوكول موحد وقابل للتكرار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp