ترث رل: تحفيز نماذج لغة كبيرة صادقة من خلال التعلم المعزز

على الرغم من الأداء القوي الذي أظهرته النماذج اللغوية الكبيرة (LLMs) في إجابة الأسئلة الواقعية، إلا أنها ما زالت عرضة للوهم والإجابات غير الصادقة، خاصةً عند تناول المهام التي تتطلب معلومات تتجاوز المعرفة المُعلمة ضمن معلماتها. في الواقع، يتطلب الصدق أكثر من الدقة فقط؛ إذ يجب على النماذج أن تدرك درجة عدم اليقين، وأن تتجنب الإجابة عند عدم التأكد، وذلك لتفادي حدوث الوهم. وهذا يشكل تحديًا جوهريًا للأساليب الحالية: فالأساليب التي تُحسّن الدقة غالبًا ما تُضاعف من ظهور الوهم، بينما تلك التي تشجع على التخلي عن الإجابة قد تصبح مفرطة في الحذر، مما يؤدي إلى التضحية بالإجابات الصحيحة. وينتهي كلا الطرفين إلى التأثير سلبًا على الصدق. في هذا العمل، نقدّم "ترث رل" (TruthRL)، وهي إطار عام للتعلم بالتحفيز (RL) يُحسّن مباشرةً صدق النماذج اللغوية الكبيرة. وبشكل خاص، نُطبّق "ترث رل" باستخدام خوارزمية GRPO مع مكافأة ثلاثية بسيطة لكنها فعّالة، تُميّز بين الإجابات الصحيحة، والوهم، والتخلّي عن الإجابة. وتشجّع هذه المكافأة النماذج على تقليل الوهم ليس فقط من خلال تقديم إجابات صحيحة، بل أيضًا من خلال تمكينها من التخلي عن الإجابة عند الشك، مما يُحسّن الصدق بشكل عام. أظهرت التجارب الواسعة على أربع معايير تعتمد على المعرفة أن "ترث رل" تقلّل من ظهور الوهم بنسبة 28.9% مقارنة بالتعلم بالتحفيز القياسي (vanilla RL)، وتحسّن من صدق النماذج بنسبة 21.1%، مع تحقيق مكاسب متسقة عبر مختلف النماذج الأساسية (مثل Qwen و Llama) في بيئة الاسترجاع وغير الاسترجاع. كما أظهرت الدراسة التفصيلية للإقصاء (ablation study) أن الأساليب التقليدية القائمة على الدقة، مثل التدريب المُوجّه أو التعلم بالتحفيز باستخدام مكافأة ثنائية، تواجه صعوبة في تحقيق التوازن بين الدقة الواقعية وعدم اليقين. في المقابل، تُظهر "ترث رل" التي نقترحها، والتي تُركّز على الصدق، أداءً قويًا في كلا الجانبين: الدقة والصدق، مما يُبرز الأهمية الحاسمة لتصميم مُستهدف التعلم الصحيح في تطوير نماذج لغوية كبيرة صادقة.