Command Palette
Search for a command to run...
인턴-S1: 과학적 다중모달 기반 모델
인턴-S1: 과학적 다중모달 기반 모델
초록
최근 몇 년간, 다양한 오픈소스 기반 모델들이 등장하며, 널리 주목받는 분야에서 놀라운 성과를 거두었고, 폐쇄형 모델과 비교해 성능이 거의 근접할 정도로 발전해왔다. 그러나 높은 가치를 지닌 동시에 더 복잡한 과학 전문 분야에서는 여전히 전문가 모델에 의존하거나, 일반 기반 모델의 발전 속도가 대중적인 분야에 비해 크게 뒤처져 있어, 과학 연구의 전환을 위한 충분한 수준에 이르지 못하고 있으며, 오픈소스 모델과 폐쇄형 모델 사이에 여전히 큰 격차가 존재한다. 이러한 격차를 줄이고 인공 일반 지능(Artificial General Intelligence, AGI)으로 한 걸음 더 나아가기 위해, 우리는 다중 과학 모달 데이터를 분석할 수 있는 전문 지식을 갖춘 종합적 이해 및 추론 능력을 보유한 전문 일반 모델인 Intern-S1을 소개한다. Intern-S1은 280억 개의 활성화 파라미터와 총 2410억 개의 파라미터를 가지며, 과학 분야에서 발생한 2.5테라 토큰 이상을 포함한 총 5테라 토큰에 걸쳐 지속적으로 사전 훈련된 멀티모달 Mixture-of-Experts(MoE) 모델이다. 사후 훈련 단계에서는, 우리는 1000개 이상의 작업에서 동시에 강화 학습(RL) 훈련을 효율적으로 통합하기 위해 '보상의 혼합(Mixture-of-Rewards, MoR)'을 제안한 InternBootCamp 환경에서 오프라인 및 온라인 강화 학습을 수행한다. 알고리즘, 데이터, 훈련 시스템에 걸친 통합적인 혁신을 통해 Intern-S1은 온라인 강화 학습 훈련에서 최상위 수준의 성능을 달성하였다. 포괄적인 평가 벤치마크에서 Intern-S1은 오픈소스 모델 중 일반적 추론 작업에서 경쟁력을 보였으며, 특히 과학 분야에서는 기존 오픈소스 모델을 크게 능가했으며, 분자 합성 계획 수립, 반응 조건 예측, 결정체의 열역학적 안정성 예측과 같은 전문 과학 작업에서 폐쇄형 최첨단 모델을 넘어선 성능을 보였다. 본 모델은 https://huggingface.co/internlm/Intern-S1 에서 공개되어 있다.