14시간 전

제트-네트로트론: 후속 신경망 아키텍처 탐색을 통한 효율적인 언어 모델

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai
제트-네트로트론: 후속 신경망 아키텍처 탐색을 통한 효율적인 언어 모델
초록

우리는 하이브리드 아키텍처를 기반으로 한 새로운 언어 모델 세대인 Jet-Nemotron을 소개한다. Jet-Nemotron은 전면 주의(전체 어텐션) 모델의 정확도와 동등하거나 이를 초월하면서도 생성 처리 속도를 크게 향상시킨다. Jet-Nemotron은 효율적인 모델 설계를 가능하게 하는 새로운 신경망 아키텍처 탐색 파이프라인인 PostNAS(Post Neural Architecture Search)를 활용해 개발되었다. 기존의 접근 방식과 달리, PostNAS는 미리 훈련된 전면 주의 모델을 기반으로 하며, 그 모델의 MLP 가중치를 고정한 상태에서 주의 블록 설계를 효율적으로 탐색한다. 이 파이프라인은 네 가지 핵심 구성 요소로 구성된다: (1) 최적의 전면 주의 레이어 배치 및 제거 학습, (2) 선형 주의 블록 선택, (3) 새로운 주의 블록 설계, (4) 하드웨어 인지 하이퍼파라미터 탐색. 우리의 Jet-Nemotron-2B 모델은 다양한 벤치마크 테스트 세트에서 Qwen3, Qwen2.5, Gemma3, Llama3.2와 비슷하거나 더 높은 정확도를 달성하며, 생성 처리 속도에서 최대 53.6배의 성능 향상과 프리필링 속도에서 6.1배의 성능 향상을 기록한다. 또한, 150억 개의 총 파라미터와 22억 개의 활성화 파라미터를 갖춘 최근의 고성능 MoE 전면 주의 모델인 DeepSeek-V3-Small 및 Moonlight에 비해 MMLU 및 MMLU-Pro에서 더 높은 정확도를 달성했다.