HyperAIHyperAI

Command Palette

Search for a command to run...

LLMs에서 지식과 추론의 분리: 인지 이중시스템 이론을 활용한 탐구

Mutian Yang Jiandong Gao Ji Wu

초록

대규모 언어 모델(Large Language Models, LLMs)은 추론 과정에서 지식과 추론을 모두 활용하지만, 이 두 요소를 구분할 수 있는 능력은 모델 분석, 해석 가능성 및 개발에서 핵심적인 역할을 한다. 이중 시스템 인지 이론(dual-system cognitive theory)에 영감을 받아, 지식과 추론의 기여도를 분리하기 위한 인지 할당 프레임워크(cognition attribution framework)를 제안한다. 구체적으로, LLM의 인지는 두 가지 서로 다른 그러나 보완적인 단계로 분해된다: 지식 검색(단계 1)과 추론 조정(단계 2). 이러한 단계를 분리하기 위해, LLM은 '빠른 사고'와 '천천한 사고'라는 두 가지 다른 인지 모드에서 답변을 생성하도록 유도된다. 다양한 인지 모드에서의 성능을 분석함으로써 지식과 추론의 기여도를 정량화한다. 본 구조는 3개의 데이터셋에서 15개의 LLM에 적용되었다. 결과는 다음과 같다: (1) 추론 조정은 도메인에 특화되어 있으며, 추론이 중요한 도메인(예: 수학, 물리학, 화학)에서는 유리하게 작용하지만, 지식이 중요한 도메인에는 영향을 줄 수 있다. (2) 매개변수 확장(Parameter scaling)은 지식과 추론 모두를 개선하며, 지식의 개선 효과가 더 두드러진다. 또한, 매개변수 확장은 LLM의 추론 능력을 현저히 신중하게 만들며, 중간 수준의 지능을 증가시킨다. (3) 지식은 주로 네트워크의 하층에 존재하며, 추론은 상층에서 수행된다. 본 프레임워크는 LLM을 "분리"라는 관점에서 이해하는 데 도움을 주는 동시에, 기존 연구에 대한 새로운 통찰을 제공한다. 이 연구에는 확장 법칙(scaling laws), 계층적 지식 편집(hierarchical knowledge editing), 소형 모델의 추론 한계(limitations of small-model reasoning)가 포함된다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LLMs에서 지식과 추론의 분리: 인지 이중시스템 이론을 활용한 탐구 | 문서 | HyperAI초신경