초록

대규모 언어 모델(Large Language Models, LLMs)은 추론 과정에서 지식과 추론을 모두 활용하지만, 이 두 요소를 구분할 수 있는 능력은 모델 분석, 해석 가능성 및 개발에서 핵심적인 역할을 한다. 이중 시스템 인지 이론(dual-system cognitive theory)에 영감을 받아, 지식과 추론의 기여도를 분리하기 위한 인지 할당 프레임워크(cognition attribution framework)를 제안한다. 구체적으로, LLM의 인지는 두 가지 서로 다른 그러나 보완적인 단계로 분해된다: 지식 검색(단계 1)과 추론 조정(단계 2). 이러한 단계를 분리하기 위해, LLM은 '빠른 사고'와 '천천한 사고'라는 두 가지 다른 인지 모드에서 답변을 생성하도록 유도된다. 다양한 인지 모드에서의 성능을 분석함으로써 지식과 추론의 기여도를 정량화한다. 본 구조는 3개의 데이터셋에서 15개의 LLM에 적용되었다. 결과는 다음과 같다: (1) 추론 조정은 도메인에 특화되어 있으며, 추론이 중요한 도메인(예: 수학, 물리학, 화학)에서는 유리하게 작용하지만, 지식이 중요한 도메인에는 영향을 줄 수 있다. (2) 매개변수 확장(Parameter scaling)은 지식과 추론 모두를 개선하며, 지식의 개선 효과가 더 두드러진다. 또한, 매개변수 확장은 LLM의 추론 능력을 현저히 신중하게 만들며, 중간 수준의 지능을 증가시킨다. (3) 지식은 주로 네트워크의 하층에 존재하며, 추론은 상층에서 수행된다. 본 프레임워크는 LLM을 "분리"라는 관점에서 이해하는 데 도움을 주는 동시에, 기존 연구에 대한 새로운 통찰을 제공한다. 이 연구에는 확장 법칙(scaling laws), 계층적 지식 편집(hierarchical knowledge editing), 소형 모델의 추론 한계(limitations of small-model reasoning)가 포함된다.

소스 PDF