باحثو جوجل ديب مايند يطرحون حلًا جديدًا لتحدي نقص بيانات الذكاء الاصطناعي باستخدام إعادة صياغة تلقائية للبيانات الملوثة
تواجه مختبرات الذكاء الاصطناعي تهديداً متزايداً لانهيار مصادر البيانات اللازمة لتدريب النماذج الكبيرة، خاصة النصية، مع تسارع استنزاف البيانات القابلة للاستخدام على الإنترنت. ورغم أن كميات هائلة من المحتوى تُجمّع يومياً، إلا أن جزءاً كبيراً منها يُستبعد بسبب احتوائه على معلومات شخصية، أو معلومات خاطئة، أو محتوى ضار. وقد أدى هذا إلى ما وصفه خبراء بـ"جفاف البيانات" الذي قد يحد من تقدم الذكاء الاصطناعي في المستقبل. في محاولة لحل هذه المشكلة، قدم باحثون من Google DeepMind نهجاً جديداً يُعرف بـ"إعادة تشكيل البيانات التوليدية" (Generative Data Refinement أو GDR). ويعتمد هذا الأسلوب على استخدام نماذج توليدية مُدرّبة مسبقاً لتعديل البيانات غير القابلة للاستخدام، مثل حذف أو استبدال أرقام الهوية الشخصية (مثل رقم الضمان الاجتماعي) أو المعلومات القديمة (مثل "الرئيس التنفيذي القادم هو...")، مع الحفاظ على الجزء المفيد من النص. وبهذا، يمكن استخلاص كميات كبيرة من البيانات المفيدة من مصادر كانت تُعتبر غير صالحة سابقاً. الباحث مينقي جيانغ، أحد مؤلفي الورقة البحثية التي نُشرت مؤخراً (بعد أكثر من عام من إنجازها)، وغادر لاحقاً إلى Meta، أوضح أن كثيراً من مختبرات الذكاء الاصطناعي تُهدر بيانات مفيدة لأنها مختلطة ببيانات غير مرغوب فيها. فمثلاً، إذا احتوى مستند على سطر واحد يحتوي على رقم هاتف، يُرفض المستند كاملاً، رغم أن بقية محتواه قد يكون قيّماً. وفقاً لجيانغ، فإن GDR يُمكن أن يُحدث فرقاً كبيراً في كفاءة استخدام البيانات، ويُعد "أداة قوية" لتوسيع نماذج الذكاء الاصطناعي المتقدمة. في اختبار تجريبي، قام الباحثون بتحليل أكثر من مليون سطر من التعليمات البرمجية، حيث قام خبراء بتمييز البيانات يدوياً، ثم قارنوا النتائج مع ما أنتجته تقنية GDR. ووجدوا أن النهج الجديد فاق بكثير الحلول الحالية، وتفوق حتى على استخدام البيانات الاصطناعية (التي تُولَد بواسطة نماذج الذكاء الاصطناعي)، والتي قد تؤدي إلى تدهور جودة النموذج أو ما يُعرف بـ"انهيار النموذج" (model collapse). يُذكر أن الورقة لم تخضع للاستعراض العلمي من قبل خبراء مستقلين، وهو أمر شائع في قطاع التكنولوجيا، حيث تُجرى المراجعات داخلياً. كما أن التطبيق الحالي لتقنية GDR على نماذج Google مثل Gemini غير مؤكد، إذ لم يرد متحدث باسم Google DeepMind على طلب التعليق. على الرغم من أن الاختبارات كانت مقتصرة على النصوص والكود البرمجي، إلا أن الباحثين يرون إمكانية تطبيق GDR على وسائط أخرى مثل الفيديو والصوت، رغم أن الفيديو ما زال يوفر كميات هائلة من البيانات يومياً، ما يقلل من حدة التحدي في هذا المجال. وبحسب جيانغ، فإن التوسع في معالجة بيانات متعددة الوسائط قد يفتح آفاقاً جديدة لاستغلال كميات هائلة من البيانات لم تُستغل سابقاً، مما يُعزز من قدرة الذكاء الاصطناعي على التطور.
