طريقة جديدة تمكن نماذج الذكاء الاصطناعي من نسيان البيانات الخاصة والمقترحة بحقوق الملكية
فريق من علماء الحاسوب بجامعة ريفيرسайд في كاليفورنيا طوّر طريقة جديدة تسمح بحذف البيانات الخاصة والمقيدة بحقوق الملكية من نماذج الذكاء الاصطناعي، دون الحاجة إلى الوصول إلى البيانات الأصلية المستخدمة في التدريب. تم عرض هذه التقنية في مؤتمر International Conference on Machine Learning في فانكوفر، ونشرت الدراسة على منصة arXiv. تُعد هذه الخطوة استجابة لقلق متزايد بشأن بقاء معلومات شخصية أو محتوى ملكية فكرية داخل نماذج الذكاء الاصطناعي بشكل دائم، مما يسمح للمستخدمين باسترجاع محتوى مشابه لما تم تدريب النموذج عليه، حتى لو كان مُحمياً بحاجز دفع أو كلمات مرور. وتحتاج القوانين الحديثة مثل GDPR في أوروبا وقانون خصوصية المستهلك في كاليفورنيا إلى ضمان قدرة الأفراد على طلب حذف بياناتهم من النماذج. كما أن دعوى قضائية رفعتها صحيفة نيويورك تايمز ضد OpenAI وMicrosoft تُبرز التحديات القانونية والأخلاقية المتعلقة باستخدام المقالات المحمية لتدريب نماذج مثل GPT. المنهج الجديد، الذي سُمي بـ"النسيان المُصدّق دون بيانات مصدرية"، يسمح لمنشئي النماذج بحذف معلومات محددة من النموذج، حتى عندما لا تتوفر البيانات الأصلية. يتم ذلك باستخدام مجموعة بيانات بديلة (مُحاكاة) تمثل إحصائياً البيانات الأصلية، مع تعديل معاملات النموذج وإضافة ضجيج عشوائي دقيق لضمان عدم إمكانية استعادة المعلومات المستهدفة. الابتكار يعتمد على تقنية تُعرف بـ"الاستدلال التقديرية" في تحسين النماذج، لكن الفريق طوّر آلية جديدة لضبط مستوى الضجيج لتعويض الفروقات بين البيانات الأصلية والبديلة، مما يضمن كفاءة عالية في الحذف مع الحفاظ على أداء النموذج. اختُبرت الطريقة على بيانات مصطنعة وواقعية، وأظهرت نتائج تقارب نتائج إعادة التدريب الكاملة من حيث الحماية الخاصة، لكن بتكلفة حوسبة أقل بكثير. يُتوقع أن تُطبّق هذه الطريقة في البداية على نماذج أبسط، لكن الباحثين يأملون في توسيع نطاقها لتشمل نماذج معقدة مثل ChatGPT. تُعد هذه التقنية ذات أهمية كبيرة لمؤسسات الإعلام، والرعاية الصحية، والمؤسسات التي تتعامل مع بيانات حساسة، حيث توفر وسيلة قابلة للإثبات لحذف المحتوى المُخترق أو غير المرغوب فيه. يؤكد الباحثون أن الأفراد يجب أن يكونوا قادرين على التأكد من أن بياناتهم يمكن حذفها من النماذج، وليس فقط في النظريات، بل في تطبيقات عملية وقابلة للتحقق. وستعمل الفرق下一步 على تحسين الطريقة لتناسب نماذج أكثر تعقيداً، وتطوير أدوات تُسهل استخدامها من قبل مطوري الذكاء الاصطناعي حول العالم. الورقة البحثية تحمل عنوان "نهج مُصدّق للنسيان دون وصول إلى البيانات المصدرية"، وتم تنفيذها بالتعاون مع سك ميراج أحمد، باحث في مختبر بروكنهين الوطني، وهو خريج دكتوراه من جامعة ريفيرسيد.
