خلايا H: حول الوجود، التأثير، والأصل للخلايا المرتبطة بالهلوسات في النماذج اللغوية الكبيرة
خلايا H: حول الوجود، التأثير، والأصل للخلايا المرتبطة بالهلوسات في النماذج اللغوية الكبيرة
Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun
Abstract
تُنتج النماذج اللغوية الكبيرة (LLMs) غالبًا تحيّزات وهمية — أي إخراجات واقعية من الناحية الشكلية لكنها غير صحيحة من الناحية الواقعية — مما يُضعف موثوقيتها. وعلى الرغم من أن الأبحاث السابقة قد ركزت على دراسة هذه التحيّزات من منظورات ماكروسكوبية مثل بيانات التدريب والأهداف، إلا أن الآليات العصبية على مستوى الخلايا العصبية (الخلايا العصبية الفرعية) لا تزال غير مُستكشفة بشكل كافٍ. في هذه الورقة، نُجري دراسة منهجية حول الخلايا العصبية المرتبطة بالتحيّزات الوهمية (H-Neurons) في النماذج اللغوية الكبيرة من ثلاث زوايا: التعرف عليها، وتأثيرها السلوكية، وأصولها. فيما يتعلق بالتعرف عليها، نُظهر أن مجموعة ضئيلة جدًا من الخلايا العصبية (أقل من 0.1% من إجمالي الخلايا العصبية) قادرة على التنبؤ الموثوق بحدوث التحيّزات الوهمية، مع قدرة تعميم قوية عبر سيناريوهات متنوعة. وفيما يخص التأثير السلوكية، تُظهر التدخلات المُحكَمة أن هذه الخلايا العصبية مرتبطة سببيًا بسلوكيات الإفراط في الامتثال. أما بالنسبة لأصولها، فإننا نتعقب هذه الخلايا إلى النماذج الأساسية المُدرّبة مسبقًا، ونجد أنها تظل قادرة على التنبؤ بحدوث التحيّزات الوهمية، مما يشير إلى أن هذه الخلايا تظهر أثناء مرحلة التدريب المسبق. تُسهم نتائجنا في ربط الأنماط السلوكية على المستوى ماكروسكوبي بالآليات العصبية على المستوى مايكروسكوبي، مما يوفر رؤى مهمة لتطوير نماذج لغوية كبيرة أكثر موثوقية.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.