TruthRL: 강화학습을 통한 진실성 있는 LLM 유도

대규모 언어 모델(Large Language Models, LLMs)은 사실형 질문에 대한 답변에서 강력한 성능을 보여주고 있으나, 매개변수 지식 범위를 벗어난 정보를 요구하는 과제에서는 여전히 환각(hallucination)과 부정확한 응답에 취약하다. 실제로 진실성(truthfulness)은 정확성만을 넘어서는 개념이다. 모델은 불확실성을 인식하고 확신이 없을 때는 응답을 회피(abstention)해야 환각을 방지할 수 있다. 그러나 기존의 방법들은 이러한 요구를 충족하기 어려운 근본적인 도전에 직면해 있다. 정확성을 최적화하는 접근법은 종종 환각을 악화시키는 반면, 응답 회피를 장려하는 방법은 지나치게 보수적인 경향을 보이며 정확한 답변을 포기하게 된다. 이 두 극단은 결국 진실성의 저하로 이어진다. 본 연구에서는 LLM의 진실성을 직접 최적화하는 일반적인 강화학습(Reinforcement Learning, RL) 프레임워크인 TruthRL을 제안한다. 구체적으로, 올바른 답변, 환각, 응답 회피를 구분하는 간단하면서도 효과적인 삼항 보상(reward)을 사용해 GRPO(Generalized Reward Policy Optimization) 기반의 TruthRL을 구현하였다. 이 방법은 모델이 정확한 응답을 제공하는 것 외에도, 불확실할 경우 응답을 회피하도록 유도함으로써 환각을 줄이고 진실성을 향상시킨다. 지식 집약적 네 가지 벤치마크에서 실시한 광범위한 실험 결과, 기존의 순수한 RL 대비 TruthRL은 환각을 28.9% 감소시키고 진실성을 21.1% 향상시켰으며, 검색 기반 및 비검색 기반 설정에서 다양한 백본 모델(예: Qwen, Llama)에 걸쳐 일관된 성능 향상이 관찰되었다. 심층적인 아블레이션 연구를 통해, 기존의 정확성 중심의 접근법(예: 감독 학습 미세조정 또는 이진 보상 기반 RL)은 사실적 정확성과 불확실성 인식 사이의 균형을 이루기 어려운 것으로 나타났다. 반면 본 연구에서 제안하는 진실성 중심의 TruthRL은 정확성과 진실성 모두에서 뛰어난 성능을 달성함으로써, 진실성 있는 LLM 개발을 위한 학습 목표 설계의 중요성을 입증한다.