
초록
대형 언어 모델(LLM)은 때때로 환각(hallucinations)을 생성하는 문제를 겪습니다. 특히, LLM은 올바른 지식을 알고 있음에도 불구하고 거짓된 응답을 생성할 수 있습니다. LLM 내부의 진실성을 활성화하는 것이 LLM의 지식 잠재력을 완전히 활용하는 열쇠입니다. 본 논문에서는 진실성을 활성화하기 위해 LLM의 내부 표현에서 진실성을 지배하는 특징을 식별하고 편집하는 추론 시점 개입 방법인 TruthX를 제안합니다. TruthX는 오토인코더(auto-encoder)를 사용하여 LLM의 표현을 각각 의미론적(semantic) 및 진실한(truthful) 잠재 공간(latent spaces)으로 매핑하고, 대조 학습(contrastive learning)을 통해 진실한 공간 내에서 진실한 편집 방향을 식별합니다. 추론 과정에서 TruthX는 진실한 공간에서 LLM의 내부 표현을 편집함으로써 효과적으로 LLM의 진실성을 강화합니다. 실험 결과, TruthX는 TruthfulQA 벤치마크에서 13개의 고급 LLM들의 평균 진실성을 20% 향상시키는 것으로 나타났습니다. 추가 분석에서는 TruthX가 단 하나의 벡터만 편집하여 LLM이 진실한 응답이나 환각적인 응답을 생성하도록 제어할 수 있음을 제시합니다.