HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

امسحه! إزالة التذكر الحساس في نماذج لغة البرمجة من خلال التعلم الآلي غير المُتَعَلِّم

Zhaoyang Chu Yao Wan Zhikun Zhang Di Wang Zhou Yang Hongyu Zhang Pan Zhou Xuanhua Shi Hai Jin David Lo

امسحه! إزالة التذكر الحساس في نماذج لغة البرمجة من خلال التعلم الآلي غير المُتَعَلِّم

الملخص

بينما أظهرت نماذج لغة التعليم البرمجي (CLMs) أداءً متفوقًا في مهام هندسة البرمجيات مثل توليد الكود وتلخيصه، تُظهر الدراسات التجريبية الحديثة وجود ثغرة حرمة حرجة: إذ تُظهر هذه النماذج تذكّرًا غير مقصود للبيانات التدريبية الحساسة، مما يسمح بإعادة إنتاج حرفياً لمعلومات سرية عند التحفيز المحدد. ولحل هذه المشكلة، تم اقتراح عدة طرق، منها إزالة التكرار من بيانات التدريب وتعزيز الخصوصية التفاضلية. لكن هذه الأساليب تتطلب إعادة تدريب النموذج بالكامل بالنسبة للنماذج المُطبّقة، ما يُسبب تكاليف حسابية كبيرة. في هذه الورقة، نسعى للإجابة على السؤال البحثي التالي: هل يمكن حذف المعلومات الحساسة التي تم تذكّرها من قبل نماذج لغة التعليم البرمجي بشكل فعّال وكفؤ؟نُجري تحقيقًا رائدًا في حذف التذكّر الحساس في نماذج لغة التعليم البرمجي من خلال تقنية "التعلم المُعاد" (machine unlearning) – وهي طريقة تعديل ما بعد التدريب تُزيل معلومات محددة من النماذج المدربة دون الحاجة إلى إعادة تدريب كامل. بشكل محدد، نقوم أولاً بقياس مخاطر التذكّر الخاصة بالبيانات الحساسة داخل مجموعات بيانات التدريب الخاصة بنماذج لغة التعليم البرمجي، ونُعدّ مجموعة بيانات عالية المخاطر تضم 50,000 عينة مُذكّرة حساسة لتُستخدم كأهداف للتعلم المُعاد. وندرس طريقتين شائعتين تعتمدان على تحسين التدرج (gradient ascent): الطريقة الأساسية (vanilla) والطريقة القائمة على القيود (constraint-based)، ثم نقدّم "CodeEraser"، وهي نسخة متقدمة تُجري حذفًا مُختارًا للقطع الحساسة المُذكّرة في الكود، مع الحفاظ على التكامل البنائي والدقة الوظيفية للكود المحيط. وقد أثبتت تجارب واسعة على ثلاث عائلات من نماذج لغة التعليم البرمجي – وهي CodeParrot وCodeGen-Mono وQwen2.5-Coder – فعالية وكفاءة CodeEraser في حذف التذكّر الحساس المستهدف، مع الحفاظ على فعالية النموذج.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
امسحه! إزالة التذكر الحساس في نماذج لغة البرمجة من خلال التعلم الآلي غير المُتَعَلِّم | الأوراق البحثية | HyperAI