InternLM2 기술 보고서

챗GPT 및 GPT-4와 같은 대규모 언어 모델(Large Language Models, LLM)의 발전은 인공 일반 지능(Artificial General Intelligence, AGI)의 등장에 대한 논의를 촉발했다. 그러나 이러한 기술적 성과를 오픈소스 모델에서 재현하는 것은 여전히 도전적인 과제였다. 본 논문은 다양한 평가 차원(6개 차원, 30개 벤치마크), 긴 컨텍스트 모델링, 그리고 개방형 주관적 평가에서 이전 모델들을 능가하는 오픈소스 LLM인 InternLM2를 소개한다. 이는 혁신적인 사전 훈련 및 최적화 기법을 통해 달성되었다. InternLM2의 사전 훈련 과정은 세심하게 설명되며, 텍스트, 코드, 긴 컨텍스트 데이터 등 다양한 유형의 데이터 준비 과정이 강조된다. InternLM2는 긴 기간에 걸친 의존성(장기 의존성)을 효과적으로 포착하며, 사전 훈련 단계에서 처음에는 4k 토큰 규모로 훈련된 후, 사전 훈련 및 미세조정 단계에서 32k 토큰으로 확장되었다. 이로 인해 20만 토큰 규모의 '바늘을 헤이스택 안에서 찾기(needle-in-a-haystack)' 테스트에서 뛰어난 성능을 보였다. 또한, Supervised Fine-Tuning(SFT)과 인간 피드백에서의 조건부 온라인 강화 학습(Conditional Online Reinforcement Learning from Human Feedback, COOL RLHF)이라는 새로운 전략을 활용해 모델을 보다 정교하게 일치시켰으며, 이는 모순되는 인간 선호도와 보상 조작(reward hacking) 문제를 효과적으로 해결한다. InternLM2 모델을 다양한 훈련 단계와 모델 크기로 공개함으로써, 연구 공동체가 모델의 진화 과정에 대한 통찰을 얻을 수 있도록 하였다.