HyperAI초신경
Back to Headlines

2025년 LLM 아키텍처 변화: DeepSeek, Gemma, Qwen 등 주요 모델 분석

2일 전

대형 언어 모델(Large Language Model, LLM) 구조 비교 GPT 아키텍처가 개발된 지 7년이 지난 현재, GPT-2 (2019)와 DeepSeek-V3, Llama 4 (2024-2025)를 살펴보면, 이들 모델의 구조가 여전히 매우 유사하다는 점이 놀랍습니다. 포지셔널 임베딩은 절대적에서 회전적(Rotational Positional Embeddings, RoPE)으로 진화했고, 멀티-헤드 어텐션(Multi-Head Attention, MHA)은 그룹-쿼리 어텐션(Grouped-Query Attention, GQA)으로 대부분 대체되었으며, SwiGLU 활성화 함수가 GELU를 대체했습니다. 그러나 이러한 세부적인 개선 아래에서, 우리는 진정한 혁신을 보았는지, 아니면 단순히 같은 기반 구조를 다듬었는지를 의심할 수 있습니다. LLM 성능을 결정하는 핵심 요소들을 비교하는 것은 매우 도전적이며, 데이터셋, 훈련 기법, 하이퍼파라미터 등이 다양하고 종종 잘 문서화되지 않기 때문입니다. 그러나 2025년의 LLM 개발자들이 어떤 일을 하고 있는지 이해하기 위해 아키텍처 자체의 구조적 변화를 검토하는 것이 여전히 가치가 있습니다. 2025년 1월에 출시된 DeepSeek R1은 큰 영향을 미쳤습니다. 이 모델은 2024년 12월에 소개된 DeepSeek V3 아키텍처를 기반으로 한 추론 모델입니다. 여기서는 DeepSeek V3의 핵심 아키텍처 기법인 멀티-헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)과 전문가 집합(Mixture-of-Experts, MoE) 층에 초점을 맞추겠습니다. 먼저, GQA에 대한 배경을 간략히 설명하겠습니다. GQA는 메모리 사용량을 줄이기 위해 여러 헤드가 동일한 키와 값 투영을 공유하도록 설계되었습니다. 예를 들어, 2개의 키-값 그룹과 4개의 어텐션 헤드가 있을 때, 헤드 1과 2는 하나의 키와 값을 공유하고, 헤드 3과 4는 다른 키와 값을 공유합니다. 이로 인해 전체 키와 값 계산이 줄어들어 메모리 사용량과 효율성이 개선됩니다. MLA는 KV 캐싱과 잘 결합되는 또 다른 메모리 절약 전략입니다. MLA는 키와 값 텐서를 저차원 공간으로 압축하여 KV 캐싱에 저장합니다. 추론 시에는 이 압축된 텐서가 원래 크기로 다시 투영되어 사용됩니다. 이는 추가적인 행렬 곱셈을 필요로 하지만 메모리 사용량을 줄여줍니다. MLA는 DeepSeek V3 전부터 이미 도입되었으며, DeepSeek V2 논문에서는 MLA가 GQA보다 더 우수한 모델링 성능을 보이는 것으로 나타났습니다. DeepSeek V3의 다른 주요 아키텍처 구성 요소는 MoE 층의 사용입니다. MoE는 트랜스포머 블록 내의 피드포워드 모듈을 여러 전문가 층으로 대체합니다. 각 전문가 층도 피드포워드 모듈로 구성되며, 이로 인해 모델의 전체 파라미터 수가 크게 증가하지만, 각 토큰당 소수의 전문가만 활성화되기 때문에 추론 시 효율성이 유지됩니다. DeepSeek V3는 256개의 전문가를 가진 671억 파라미터 모델이지만, 추론 시 9개의 전문가(1개 공유 전문가 + 8개 선택 전문가)가 활성화되어 37억 파라미터만 사용됩니다. 비영리 Allen Institute for AI가 개발한 OLMo 시리즈는 훈련 데이터와 코드의 투명성으로 주목받습니다. OLMo 모델들은 벤치마크 상위권에 들지는 않지만, 초기화 시 안정적인 그래디언트와 함께 훈련 성능과 비용 사이에서 좋은 균형을 이룹니다. OLMo 2의 주요 아키텍처 설계는 RMSNorm 층의 위치와 QK-Norm의 추가입니다. OLMo 2는 attention과 피드포워드 모듈 후에 RMSNorm을 적용하는 방식(Post-Norm)을 취하며, 이는 훈련 안정성을 개선하는 데 도움이 됩니다. Google의 Gemma 모델 시리즈는 항상 우수한 성능을 보였음에도 불구하고, 다른 인기 모델들에 비해 덜 주목받았습니다. Gemma 3는 슬라이딩 윈도우 어텐션(sliding window attention)을 사용하여 KV 캐싱 메모리 사용량을 크게 줄였습니다. 슬라이딩 윈도우 어텐션은 현재 쿼리 위치 주변의 문맥 크기를 제한하여 로컬 어텐션을 수행합니다. Gemma 3는 이 기법을 통해 메모리 효율성을 높였으며, 성능 저하 없이 추론 시간을 단축시켰습니다. Gemma 3는 또한 attention 모듈 주변에 Pre-Norm과 Post-Norm을 모두 사용하여 안정성을 더욱 강화했습니다. Mistral Small 3.1 24B는 2025년 3월에 출시되어 Gemma 3 27B보다 여러 벤치마크에서 우수한 성능을 보였습니다. 이는 사용자 정의 토크나이저, KV 캐싱 및 레이어 수 축소 등에 기인합니다. Mistral은 슬라이딩 윈도우 어텐션 대신 일반 GQA를 사용하여 추론 시간을 단축시키는 데 효과적이었습니다. Llama 4는 MoE 접근 방식을 채택하였으며, 대체적으로 DeepSeek V3와 유사한 아키텍처를 따릅니다. 그러나 Llama 4는 GQA를 사용하고, DeepSeek V3는 MLA를 사용합니다. Llama 4는 37억 활성 파라미터 대신 17억 활성 파라미터를 사용하며, 2개의 큰 전문가 층을 가집니다. Qwen3 시리즈는 다양한 크기(0.6B, 1.7B, 4B, 8B, 14B, 32B)의 고성능 오픈 웨이트 LLM을 제공합니다. Qwen3 0.6B는 가장 작은 최신 오픈 웨이트 모델 중 하나로, 개인적으로 훈련 및 추론 시 매우 효율적입니다. Qwen3는 또한 30B-A3B와 235B-A22B 두 가지 MoE 버전을 제공하여, 사용자의 목적과 제약 조건에 따라 유연하게 활용할 수 있습니다. SmolLM3는 30억 파라미터로 상대적으로 작지만, 뛰어난 모델링 성능을 보이는 모델입니다. SmolLM3는 NoPE(No Positional Embeddings)를 사용하여 명시적인 위치 정보 주입을 생략합니다. 그러나 인과 관계 어텐션 마스크(causal attention mask)로 인해 토큰 순서가 유지되므로, 명시적인 위치 정보가 없어도 모델이 이를 학습할 수 있습니다. NoPE는 길이 일반화(length generalization)를 개선하여, 시퀀스 길이가 증가해도 성능 저하가 적습니다. Kimi 2는 오픈 웨이트 모델로서 엄청난 성능을 보여 AI 커뮤니티에서 큰 주목을 받았습니다. 이 모델은 1조 파라미터로, 현재까지 가장 큰 LLM 중 하나입니다. Kimi 2는 DeepSeek V3 아키텍처를 확장하여, MoE 모듈에서 더 많은 전문가를 사용하고, MLA 모듈에서 더 적은 헤드를 사용합니다. 김이는 앞선 Kimi 1.5 모델에서도 인상적인 성능을 보였지만, DeepSeek R1과 같은 날 출시되어 주목받지 못했습니다. Kimi 2는 이러한 교훈을 바탕으로 공개된 오픈 웨이트 모델로, 현재 가장 인상적인 오픈 웨이트 모델로 평가받고 있습니다. 2025년의 LLM 아키텍처는 메모리 효율성과 추론 성능을 개선하는 데 주력하고 있으며, MoE와 슬라이딩 윈도우 어텐션 등의 기법이 널리 채택되고 있습니다. 이러한 발전은 LLM의 성능을 크게 향상시키면서도, 사용자의 다양한 요구에 맞는 유연성을 제공하고 있습니다. 앞으로도 LLM의 발전이 계속될 것으로 기대됩니다.

Related Links