HyperAI초신경
4일 전

잠재적 추론에 대한 조사

Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian
잠재적 추론에 대한 조사
초록

대형 언어 모델(LLMs)은 특히 중간 단계를 구체적으로 표현하는 명시적 사고 과정(Chain-of-Thought, CoT)에 의해 안내될 때 뛰어난 추론 능력을 보여주었습니다. CoT는 해석 가능성과 정확성을 향상시키지만, 자연어 추론에 의존함으로써 모델의 표현 범위를 제한합니다. 잠재적 추론(Latent Reasoning)은 이러한 병목 현상을 해결하기 위해 모델의 연속적인 은닉 상태에서 완전히 다단계 추론을 수행하여 토큰 수준의 감독을 제거합니다. 이 조사에서는 잠재적 추론 연구를 발전시키기 위해 이 분야의 전반적인 개요를 제공합니다. 우리는 먼저 신경망 계층이 추론의 계산 기반으로서의 기초 역할을 검토하며, 계층적 표현이 복잡한 변환을 지원하는 방식을 강조합니다. 다음으로, 활성화 기반 반복, 은닉 상태 전파, 명시적 사고 과정을 압축하거나 내부화하는 미세 조정 전략 등 다양한 잠재적 추론 방법론을 탐구합니다. 마지막으로, 마스킹 확산 모델(Masked Diffusion Models)을 통해 무한 깊이의 잠재적 추론을 가능하게 하는 고급 패러다임을 논의합니다. 이는 전역적으로 일관되고 역추적이 가능한 추론 과정을 실현합니다. 이러한 관점을 통합함으로써 우리는 잠재적 추론의 개념적 지형도를 명확히 하고 LLM 인지 연구의 최전선에서 미래 연구 방향을 제시하고자 합니다. 관련 GitHub 저장소는 최신 논문과 저장소를 수집하여 다음과 같이 제공됩니다: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.