الاعتماد المفرط على وسائل التواصل الاجتماعي يُضعف قدرة نماذج الذكاء الاصطناعي على التفكير والتحليل
أظهرت دراسة جديدة أن التدريب على كميات كبيرة من المحتوى منخفض الجودة، وخاصة المنشورات الشائعة على وسائل التواصل الاجتماعي، يؤدي إلى تدهور في قدرات نماذج الذكاء الاصطناعي اللغوية الكبيرة، مثل نموذج Llama 3 التابع لشركة ميتا، ما يشبه ما يُعرف بـ"تآكل الدماغ" في هذه النماذج. وقد نُشرت النتائج كمقال مسبق على منصة arXiv في 15 أكتوبر، دون خضوعها لمراجعة علمية من قبل خبراء آخرين. أوضح الباحث زانغيانغ وانغ، من جامعة تكساس في أوستن، أن جودة البيانات تُعدّ من العوامل الحاسمة في تدريب نماذج الذكاء الاصطناعي، لكن المعايير التقليدية — مثل التصريف النحوي أو الوضوح — لا تكفي لتمييز جودة المحتوى. ففي هذه الدراسة، ركز الباحثون على تأثير المحتوى منخفض الجودة، مثل المنشورات القصيرة، أو تلك التي تُعتمد على الحسّاسية أو التهويل، والتي تنتشر بسرعة على منصات مثل X (سابقًا تويتر). تم تدريب نموذجين رئيسيين: Llama 3 من ميتا، وثلاثة إصدارات من نموذج Qwen من شركة علي بابا، باستخدام مليون منشور علني من منصة X. وُجد أن النماذج التي تم تدريبها على مزيج من المحتوى الجيد والسيء أظهرت أداءً أضعف في التفكير المنطقي، حيث تجاهلت خطوات التفكير أو لم تستخدمه على الإطلاق، ما أدى إلى إعطاء إجابات خاطئة، حتى في الأسئلة المتعددة الخيارات. كما أظهرت النتائج أن تأثير المحتوى السيئ يزداد مع ارتفاع نسبته في مجموعة التدريب. وعند تقييم السمات الشخصية للنموذج باستخدام استبيانات نفسية، وُجد أن Llama 3، الذي كان في البداية يُظهر سمات إيجابية مثل التسامح، والانفتاح، والانضباط، بدأ يُظهر سمات سلبية متزايدة مع زيادة التدريب على محتوى منخفض الجودة، بما في ذلك سمات تشبه الشخصية المرضية، وفقًا لاستبيانات نفسية. في محاولة لتحسين الأداء، جرب الباحثون تعديل تعليمات التفاعل (الـprompt) أو زيادة كمية البيانات عالية الجودة، لكن النتائج كانت محدودة. كما أن النموذج لم يُظهر تحسنًا في التفكير المنطقي حتى عند تشجيعه على مراجعة أخطائه، ما يشير إلى أن الطرق الحالية لتصحيح تأثير المحتوى السيئ قد لا تكون كافية. تُعتبر هذه النتائج دليلاً قوياً على مبدأ "النفايات تدخل، نفايات تخرج" في عالم الذكاء الاصطناعي، وهو مبدأ مُتَّبع منذ فترة طويلة. وفقًا للباحثة مهويش ناسيم من جامعة غرب أستراليا، فإن "إذا وُضع محتوى فاسد في نموذج ذكاء اصطناعي، فستنتج نتائج فاسدة". وتشير الدراسة إلى الحاجة إلى معايير أكثر دقة لجودة البيانات، وطرق جديدة لحماية نماذج الذكاء الاصطناعي من التأثيرات السلبية لانتشار المحتوى المُضلِّل أو السطحي على الإنترنت.
