باحثو OpenAI اكتشفوا السبب وراء تضليل النماذج اللغوية
على الرغم من مرور ثلاث سنوات على إطلاق OpenAI لـ ChatGPT، لا يزال التحدي المتمثل في "الهلوسة" — أي إنتاج معلومات خاطئة أو غير موجودة — يشكل عقبة كبيرة أمام دمج النماذج اللغوية في مهام حقيقية ومحفوفة بالمخاطر في الاقتصاد والقطاعات الحيوية. ورغم الجهود الكبيرة التي بُذلت، ظلت معدلات الخطأ في هذه النماذج منخفضة نسبيًا، لكنها لا تزال غير كافية لضمان الموثوقية المطلوبة. في محاولة لفهم جذور هذه المشكلة، نشرت OpenAI مؤخرًا بحثًا مثيرًا للانتباه بعنوان "لماذا تهلوس النماذج اللغوية؟". يُقدّم هذا العمل تفسيرًا جوهريًا للسبب الكامن وراء سلوك النماذج في إنتاج إجابات غير دقيقة، حتى عندما لا تمتلك المعلومات الكافية. وفقًا للباحثين، فإن السبب الجوهري ليس في التصميم الداخلي للنماذج، بل في طريقة تدريبها وتقييمها. الاستنتاج الرئيسي للدراسة هو أن النماذج اللغوية تهلوس لأن بيئة التدريب والتقييم تُكافئ التخمين، بدلًا من تشجيع الاعتراف بالجهل. بمعنى آخر، كلما أنتج النموذج إجابة — حتى لو كانت خاطئة — كان يُكافأ بدرجة أعلى، بينما لا يُكافأ عند قول "لا أعرف". هذا التحفيز يشبه ما يحدث في امتحانات اختيار من متعدد: الطالب الذي يخمن قد يحصل على نقطة، بينما من يترك السؤال فارغًا لا يُكافأ. ونتيجة لذلك، تطور النماذج عادةً على التخمين بثقة، حتى في المواقف التي لا توجد فيها معلومات كافية. هذا التفسير ليس جديدًا تمامًا، لكن ما يميز البحث هو اقتراح حل عملي ومباشر: إعادة تصميم إجراءات التدريب والتقييم لتشجيع النماذج على التعبير عن عدم اليقين. بدلًا من تدريب النموذج على اختيار الإجابة الأكثر احتمالًا من بين عدة خيارات، يمكن تعليمه أن يميز بين الحالات التي يمتلك فيها معرفة كافية، والظروف التي لا يملك فيها ما يكفي من معلومات. وبهذا، يمكن تقليل الهلوسة دون التضحية بالدقة في المواقف التي يُمكن فيها الإجابة بدقة. النتائج الأولية التي قدمها الباحثون تُظهر أن التغييرات في إجراءات التدريب — مثل استخدام معايير تقييم تُعاقب على الإجابات الخاطئة، وتُكافئ صراحةً الإفصاح عن عدم المعرفة — تؤدي إلى تقليل كبير في معدلات الهلوسة، مع الحفاظ على جودة الإجابات في الحالات التي تكون فيها المعلومات متوفرة. الاستنتاج الأهم هو أن الهلوسة ليست عيبًا في النموذج نفسه، بل نتيجة لتصميم نظام التدريب الذي يشجع على السلوك الخاطئ. وبمجرد تعديل هذه الممارسات، قد تكون النماذج قادرة على تقديم إجابات أكثر موثوقية، ما يفتح الباب أمام استخدامها في مجالات حساسة مثل الطب، والقانون، والهندسة، والخدمات المالية. هذا البحث لا يُقدّم حلًا جاهزًا، لكنه يضع حجر الأساس لتحول جوهري في كيفية تطوير الذكاء الاصطناعي اللغوي. وربما يكون هذا التحول هو ما ينقصه الصناعة لتمكين النماذج من تحقيق إمكاناتها الحقيقية، بعيدًا عن التخمين، وبعيدًا عن الهلوسة.
