دراسة جوجل تكشف how الـ LLMs تتخلص من الإجابات الصحيحة تحت ضغط النقد، مما يهدد التطبيقات التفاعلية للذكاء الاصطناعي
دراسة جوجل تكشف عن ثقة النماذج اللغوية الكبيرة في الإجابات وتأثير الضغط عليها تاريخ النشر: 15 يوليو 2025 أجرى باحثون من جوجل ديب مايند وجامعة لندن دراسة جديدة تكشف كيفية تشكيل النماذج اللغوية الكبيرة (LLMs) وحفظها وفقدانها الثقة في إجاباتها. وقد أظهرت النتائج تشابهات ملحوظة بين التحيزات المعرفية للنماذج اللغوية الكبيرة والبشر، بينما أبرزت أيضًا بعض الاختلافات الحادة. اختبار الثقة في النماذج اللغوية الكبيرة عند نشر النماذج اللغوية الكبيرة بأمان، يعد الشعور الموثوق بالثقة في الإجابات (والذي يعبر عنه بنسبة احتمال أن تكون الإجابة صحيحة) عاملاً حاسمًا. رغم أن النماذج اللغوية الكبيرة قادرة على إنتاج هذه النقاط الثقة، فإن مدى قدرتها على استخدامها لتوجيه السلوك التكيفي غير واضح بشكل كافٍ. هناك أيضًا أدلة تجريبية تشير إلى أن هذه النماذج قد تكون متكبرة في إجابتها الأولى ولكنها تصبح شديدة الحساسية للانتقادات وتغير رأيها بسرعة. لدراسة هذا الأمر، طور الباحثون تجربة مراقبة لاختبار كيف يتحديث النماذج اللغوية الكبيرة ثقتها ويقررون ما إذا كان يجب تغيير إجاباتهم عند تقديم المشورة الخارجية. في التجربة، تم تزويد "نموذج الإجابة" بسؤال ثنائي الخيار، مثل تحديد العرض الجغرافي الصحيح لمدينة من بين خيارين. بعد اختياره الأولي، تلقى النموذج مشورة من "نموذج المشورة" الوهمي. جاءت هذه المشورة مع تصنيف دقة صريح (مثل "هذا نموذج المشورة دقيق بنسبة 70٪") وستكون إما موافقة، معارضة، أو محايدة للإجابة الأولية. جزء أساسي من التجربة كان التحكم في ما إذا كان يمكن للنموذج رؤية إجابته الأولية أثناء اتخاذ القرار النهائي. في بعض الحالات، تم عرض الإجابة الأولى، وفي حالات أخرى، تم إخفاؤها. هذا الإعداد الفريد، والذي من المستحيل تكراره مع المشاركين البشريين الذين لا يستطيعون نسيان اختياراتهم السابقة، مكّن الباحثين من عزل تأثير ذاكرة القرار السابق على الثقة الحالية. حالة الأساس، حيث تم إخفاء الإجابة الأولية وكانت المشورة محايدة، أثبتت كيف يمكن تغيير إجابة النموذج ببساطة بسبب التباين العشوائي في معالجة النموذج. ركز التحليل على كيفية تغيير ثقة النموذج في اختياره الأصلي بين الدورتين الأولى والثانية، مما قدم صورة واضحة لتأثير الاعتقاد الأولي على "تغيير الرأي" في النموذج. الثقة الزائدة والثقة المنخفضة فحص الباحثون أولًا كيف يؤثر ظهور إجابة النموذج اللغوي الكبير على ميله لتغيير اختياره. لاحظوا أنه عندما كان بإمكان النموذج رؤية إجابته الأولى، انخفض ميله للتغيير مقارنة بحالات إخفاء الإجابة. يشير هذا الاكتشاف إلى تحيز معرفي محدد، كما يذكر البحث: "هذا التأثير -ميل الاستمرار في الاختيار الأول بمجرد أن يكون هذا الاختيار مرئيًا (بدلاً من إخفائه) أثناء التفكير في الاختيار النهائي- قريب من ظاهرة توصف في دراسة صنع القرار البشري، وهي التحيز الداعم للاختيار." كذلك أكدت الدراسة أن النماذج تدمج المشورة الخارجية. عندما واجهت المشورة المعاكسة، أظهر النموذج ازديادًا في ميله لتغيير رأيه، وانخفاضًا عندما كانت المشورة داعمة. يكتب الباحثون: "يظهر هذا الاكتشاف أن نموذج الإجابة يدمج اتجاه المشورة بشكل صحيح لتعديل معدل تغيير رأيه." ومع ذلك، اكتشفوا أيضًا أن النموذج حساس شديدًا للمعلومات المتعارضة ويرتكب تحديثات ثقة كبيرة نتيجة لذلك. حساسية النماذج اللغوية الكبيرة للإعدادات المختلفة مثير للاهتمام، هذا السلوك معاكس للتحيز التأكيدي الذي يظهر غالبًا لدى البشر، حيث يفضل الناس المعلومات التي تؤكد اعتقاداتهم الحالية. وجد الباحثون أن النماذج اللغوية الكبيرة "تمنح وزنًا زائدًا للمشورة المعاكسة بدلاً من المشورة الداعمة، سواء كان الاختيار الأولي للنموذج مرئيًا أو مخفيًا." أحد الأسباب المحتملة لهذا السلوك هو أن تقنيات التدريب مثل التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) قد تشجع النماذج على الامتثال المفرط للمدخلات المستخدم، وهو ظاهرة تُعرف بالتملق وتظل تحديًا للمساعي الذكية. الآثار على التطبيقات المؤسسية تؤكد هذه الدراسة أن أنظمة الذكاء الاصطناعي ليست العناصر المنطقية النقيّة التي يُنظر إليها غالبًا. فهي تظهر مجموعة من التحيزات، بعضها يشبه الأخطاء المعرفية البشرية وبعضها الآخر فريد من نوعه، مما يجعل سلوكها غير متوقع من وجهة نظر البشر. بالنسبة للتطبيقات المؤسسية، يعني هذا أن المعلومات الأخيرة يمكن أن يكون لها تأثير غير متناسب على استدلال النموذج اللغوي الكبير، خاصة إذا كانت متعارضة مع إجابته الأولى، مما قد يتسبب في تخلصه من الإجابة الصحيحة في البداية. لكن، كما تبين الدراسة، يمكننا التلاعب بذاكرة النموذج اللغوي الكبير لتجنب هذه التحيزات غير المرغوبة بطرق غير ممكنة مع البشر. يمكن للمطورين الذين يبنون وكلاء محادثة متعددة الدورات تنفيذ استراتيجيات لإدارة سياق الذكاء الاصطناعي. على سبيل المثال، يمكن تلخيص المحادثة الطويلة بشكل دوري، مع تقديم الحقائق والقرارات الرئيسية بطريقة محايدة وخالية من معلومات الوكلاء الذين قدموا هذه الاختيارات. ثم يمكن استخدام هذا الملخص لبدء محادثة جديدة مركزة، مما يوفر للنموذج صفحة بيضاء ليقوم بالاستدلال منها ويساعد في تجنب التحيزات التي قد تتسلل خلال المحادثات الممتدة. مع اندماج النماذج اللغوية الكبيرة بشكل أكبر في سير العمل المؤسسي، أصبح فهم تفاصيل عمليات صنع القرار لديها أمرًا ضروريًا. يتبع الباحثون والمبرمجون الأبحاث الأساسية مثل هذه لتوقع وتصحيح هذه التحيزات المتأصلة، مما يؤدي إلى تطبيقات أكثر قدرة، وثباتًا، وموثوقية. تقييم الخبراء ونبذة عن جوجل ديب مايند يرى الخبراء أن هذه الدراسة تقدم رؤى قيمة لفهم سلوك النماذج اللغوية الكبيرة وكيفية تحسينها. تعتبر جوجل ديب مايند واحدة من الرائدين في مجال الذكاء الاصطناعي، وتُعد هذه الأبحاث جزءًا من جهودها المستمرة لتطوير تكنولوجيا أكثر موثوقية وأمانًا. بفضل هذه الدراسات، يمكن للمطورين اتخاذ خطوات ملموسة نحو بناء تطبيقات ذكاء اصطناعي أكثر فعالية وموثوقية في البيئات المؤسسية.