TruthX: تخفيف الهلوسات من خلال تعديل النماذج اللغوية الكبيرة في الفضاء الصادق

تواجه نماذج اللغات الكبيرة (LLMs) أحيانًا مشكلة إنتاج الأوهام، حيث قد تولد هذه النماذج ردودًا غير صحيحة رغم امتلاكها للمعرفة الصحيحة. تفعيل الصدقية داخل نموذج اللغة الكبير هو المفتاح للكشف الكامل عن إمكانات معرفته. في هذا البحث، نقترح طريقة TruthX، وهي تدخل يتم أثناء الاستدلال يهدف إلى تفعيل الصدقية في نموذج اللغة الكبير من خلال تحديد وتحرير الخصائص داخل التمثيلات الداخلية للنموذج التي تحكم الصدقية. يستخدم TruthX كودر ذاتيًا لتحويل تمثيلات نموذج اللغة الكبير إلى فضاءات معنوية وصادقة على التوالي، ويقوم بتطبيق التعلم التبايني لتحديد اتجاه تعديل صادق داخل الفضاء الصادق. أثناء الاستدلال، يقوم TruthX بتعديل التمثيلات الداخلية لنموذج اللغة الكبير في الفضاء الصادق، مما يعزز بشكل فعال صدقية النموذج. تظهر التجارب أن TruthX يحسن صدقية 13 نموذجًا متقدمًا من نماذج اللغات الكبيرة بمتوسط 20% على مقاييس TruthfulQA. تشير التحليلات الإضافية إلى أن TruthX يمكنه التحكم في نموذج اللغة الكبير لإنتاج ردود صادقة أو أوهامية عبر تعديل متجه واحد فقط في تمثيلاته الداخلية.