HyperAI초신경
Back to Headlines

LLM의 추론 과정 분석: 지식과 논리의 구분 필요성

14일 전

최근 대형 언어 모델(LLM)들, 예를 들어 OpenAI의 o1/3와 DeepSeek-R1은 복잡한 작업에서 눈에 띄는 개선을 이루었습니다. 그러나 이러한 모델들의 단계별 추론 과정은 아직 명확하지 않습니다. 대부분의 평가는 최종 답변의 정확성에 초점을 맞추어, 모델이 지식과 논리를 어떻게 결합하는지 드러내지 못합니다. 이전의 몇몇 방법들은 질문과 답변 간의 유사성을 비교하여 추론을 측정하려고 시도했지만, 이런 접근 방식은 모델들이 종종 이전의 추론이나 내부 지식에 의존하기 때문에 문제가 있습니다. 수학과 의학 같은 분야에서는 추론 요구사항이 다르기 때문에, 신뢰할 수 있는 AI를 구축하기 위해 더 나은, 분야별로 인지된 평가 방법을 개발하는 것이 중요합니다. 수학과 의학에서 최종 답변 평가의 한계 최근 LLM들은 특히 수학과 의학에서 추론 작업에 있어 놀라운 발전을 이루었습니다. 그러나 대부분의 이 발전은 최종 답변의 정확성을 향상시키는 데 집중되어 있으며, 모델이 단계적으로 어떻게 추론하는지는 이해하지 못합니다. 이전 연구에서는 추론 과정에서의 사실 오류를 지적하거나, 추론 단계와 원래 질문 간의 유사성을 측정해 왔습니다. 하지만 유사성이 논리적 타당성이나 사실적 정확성을 보장하지는 않으며, LLM들이 종종 내부 지식이나 이전의 추론에 의존하기 때문입니다. LLM 추론에서 지식과 논리를 구분하는 새로운 프레임워크 UC Santa Cruz, 스탠퍼드, 동지대학교 연구진은 최종 답변 평가를 넘어서 LLM 추론을 두 가지 핵심 부분으로 분해했습니다: 사실적 지식과 논리적 단계. 그들은 지식 지수(KI)로 사실적 정확성을, 정보 획득 지수(InfoGain)로 추론의 질을 측정하는 상세한 프레임워크를 소개합니다. 이 분석은 Qwen 모델이 수학과 의학 업무에서 어떻게 작동하는지를 파악하며, 추론 능력이 분야 간에 쉽게 전이되지 않는다는 점을 밝혔습니다. 감독 학습(SFT)은 정확성을 향상시키지만, 종종 추론 깊이를 저하시킵니다. 반면 강화 학습(RL)은 관련 없는 정보를 제거하여 추론을 세련시킵니다. 이 연구는 LLM들을 더 신중하게 평가하고 훈련해야 함을 강조합니다. Qwen2.5-7B와 DeepSeek-R1 모델의 추론 평가 연구진은 Qwen2.5-7B와 이의 DeepSeek-R1 디스틸링 버전을 SFT와 RL로 훈련시키고, 수학과 의학 분야의 작업을 통해 추론을 평가했습니다. 그들은 각 응답을 논리적 단계로 분해하고, 정보 획득 지수(얼마나 불확실성이 감소되는지)와 지식 지수(각 단계가 실제 세계의 사실과 얼마나 일치하는지)를 통한 평가를 수행했습니다. 정보 획득 지수는 각 단계의 정보량을 추적하며, 지식 지수는 지식이 실제 세계의 사실과 일치하는지를 확인합니다. 이 접근 방식은 모델이 어떻게 추론하고 어떤 부분에서 정확성이나 논리에 실패할 수 있는지를 밝혀줍니다. 감독 학습 vs. 강화 학습: 분야별 작업에서의 성능 연구에서는 Qwen-2.5-7B의 두 변형, Qwen-Base와 디스틸링된 Qwen-R1을 의학 작업에서 평가했습니다. 결과에 따르면, Qwen-Base는 SFT와 RL 후에도 Qwen-R1보다 정확성, 지식 보유, 추론 면에서 일관되게 우월한 성능을 보였습니다. 디스틸링된 모델은 수학과 코드에 대한 이전 훈련이 주로 이루어져 분야 간 불일치를 겪고 있습니다. 흥미롭게도, 감독 학습은 추론 효율성을 약간 희생시키더라도 의학 지식을 더 효과적으로 향상시키며, 강화 학습은 SFT 후에 적용될 때 추론과 지식 모두를 개선합니다. 의학 벤치마크는 추상적인 추론보다 사실적 지식에 더 의존하는 경향이 있으며, 이는 수학 중심 작업과 달라집니다. 결론: 더 해석 가능하고 신뢰할 수 있는 LLM들로 결론적으로, 연구는 특히 의학과 수학 같은 고위험 분야에서 LLM들이 어떻게 생각하는지를 더 잘 평가하기 위해 지식과 추론을 분리하는 프레임워크를 도입했습니다. Qwen 모델을 SFT와 RL로 훈련시키면서 연구진은 감독 학습이 사실적 정확성을 향상시키는 데 효과적이지만, 종종 추론을 약화시킨다는 것을 발견했습니다. 강화 학습은 잘못된 정보를 제거하여 추론을 개선합니다. 이 프레임워크는 법률이나 금융 등의 분야에서도 확장될 수 있으며, 구조화된 사고가 중요한 이러한 분야에서 모델의 결정 과정을 명확히 하고 특정 분야에 맞는 훈련 방법을 제안하는 데 도움이 될 것입니다. 이 연구의 전체 내용은 해당 논문, 코드, 프로젝트 페이지에서 확인할 수 있습니다. 이 연구에 대한 모든 공은 해당 프로젝트의 연구진에게 돌립니다. 또한, 우리 트위터를 팔로우하고, 99,000명 이상의 ML Reddit 커뮤니티에 가입하거나 뉴스레터를 구독하는 것도 좋습니다.

Related Links