독일 연구소에서 새로운 DeepSeek R1T2 카이미라 출시: 기존보다 200% 빠르고 개선된 추론력 및 컴팩트한 출력
지난 한 달 동안 중국의 AI 스타트업 DeepSeek, 홍콩에 본사를 두고 있는 High-Flyer Capital Management의 자회사,가 최신 버전의 오픈 소스 모델 DeepSeek R1-0528을 출시했습니다. 이 모델은 전작인 DeepSeek-R1과 마찬가지로 저렴한 훈련 비용으로 높은 추론 능력을 보여주며, 무료로 개발자와 기업에 제공되어 큰 주목을 받았습니다. R1-0528은 그 퍼미시브한 Apache 2.0 라이선스 덕분에 다른 AI 연구실과 개발자들에 의해 적극적으로 조정되고 변형되었습니다. 독일의 24년 역사를 가진 TNG Technology Consulting GmbH는 이번 주에 이러한 변형 중 하나인 DeepSeek-TNG R1T2 Chimera를 발표했습니다. R1T2는 TNG의 Chimera 대형 언어 모델(Large Language Model, LLM) 시리즈의 최신 버전으로, 효율성과 속도 면에서 크게 향상된 성능을 보입니다. TNG가 공개한 모델 카드에 따르면, R1T2는 R1-0528의 지능 벤치마크 점수의 90% 이상을 달성하면서도 출력 토큰 수를 40% 미만으로 줄였습니다. 이는 더 짧고 빠른 응답을 생성하여, 추론 시간과 컴퓨팅 비용을 크게 절감하는 것을 의미합니다. R1T2는 R1보다 약 20% 빠르고, R1-0528보다 2배 이상 빠르다는 것이 벤치마크를 통해 입증되었습니다. TNG의 고위 리더인 Vaibhav (VB) Srivastav는 X(트위터)에서 "DAMN! DeepSeek R1T2 – R1-0528보다 200% 빠르고 R1보다 20% 빠르다"라고 호평하며, R1T2가 DS V3, R1, R1-0528을 조합해 만들어졌으며, Hugging Face에서 MIT 라이선스로 제공되고 있음을 밝혔�습니다. R1T2는 TNG의 Assembly-of-Experts (AoE) 방법론을 통해 제작되었습니다. AoE는 여러 사전 훈련된 모델의 가중 텐서(weight tensors)를 선택적으로 병합하여 새로운 모델을 만드는 기술입니다. 이는 Mixture-of-Experts (MoE)와는 다르게, MoE는 입력에 따라 다양한 구성 요소 또는 '전문가'들이 조건부로 활성화되는 아키텍처를 말하지만, AoE는 모델 병합 기법을 사용합니다. '전문가'는 여기서 런타임에서 동적으로 활성화되는 것이 아니라 병합되는 모델 구성 요소를 의미합니다. TNG의 AoE 구현은 주로 MoE 계층 내의 루트된 전문가 텐서(routed expert tensors)를 병합하는데 중점을 두었습니다. 이 접근 방식은 R1-0528의 추론 강도를 유지하면서 V3-0324와 같은 빠른 모델의 더 효율적인 공유 및 주의 층을 활용하여, 결과물인 Chimera 모델들이 고성능을 유지하면서도 간결성을 확보할 수 있게 합니다. 벤치마크에 따르면 R1T2는 R1-0528의 지능을 90% 이상 유지하면서 출력 토큰 수를 약 40% 줄였습니다. 이는 추론 시간을 2배 단축시키고 컴퓨팅 부하를 크게 줄이는 결과를 가져왔습니다. 또한 R1보다도 평균 20% 더 간결한 응답을 제공하여, 고속 처리나 비용 민감한 배포 환경에서 유의미한 이점을 제공합니다. R1T2는 MIT 라이선스 하에 오픈 소스로 제공되어, 상업적 응용 프로그램에 사용하거나 수정할 수 있습니다. 그러나 함수 호출이나 도구 사용이 필요한 용례에서는 현재 한계가 있으므로, 이 부분은 미래 업데이트에서 개선될 것으로 기대됩니다. 유럽 기업들은 2025년 8월 2일부터 시행되는 EU AI 법안에 대한 준수 여부를 검토해야 합니다. 미국 기업이나 다른 나라를 서비스하는 기업들은 EU AI 법안의 적용을 받지 않아, 이 모델을 자유롭게 사용할 수 있습니다. TNG Technology Consulting GmbH는 2001년 설립된 독일 바이에른에 본사를 두고 있으며, 900명 이상의 직원을 고용하고 있습니다. 이 회사는 통신, 보험, 자동차, 전자 상거래, 물류 등 다양한 산업의 주요 기업 고객을 대상으로 소프트웨어 개발, 인공 지능, DevOps/클라우드 서비스에 중점을 두고 있습니다. TNG는 운영 연구와 자율 관리 원칙을 기반으로 하는 가치 중심의 컨설팅 파트너십으로, 기술 혁신 문화를 지원합니다. R1T2를 포함한 과거 Chimera 변형 모델들은 이미 OpenRouter와 Chutes 플랫폼을 통해 수십억 토큰을 일일이 처리하고 있습니다. 기술 의사결정자들에게 R1T2는 다음과 같은 실질적인 이점을 제공합니다: - 낮은 추론 비용: 출력 토큰 수가 줄어들면서 GPU 시간과 에너지 소비가 감소하여 인프라 비용을 절감할 수 있습니다. - 높은 추론 품질: R1-0528과 비슷한 추론 능력을 유지하면서도 긴 답변을 피하기 때문에, 구조화된 작업(수학, 프로그래밍, 논리)에 적합합니다. - 오픈 소스 및 수정 가능: MIT 라이선스 하에 완전히 배포 및 수정할 수 있어, 규제 환경이나 격리된 환경에서 개인적으로 호스트하거나 모델을 맞춤화하거나 추가 훈련할 수 있습니다. - 모듈화의 가능성: AoE 접근 방식은 기업들이 기존 모델의 강점을 재조합하여 특화된 변형을 조립할 수 있는 가능성을 제시합니다. Reddit의 LocalLLaMA 커뮤니티에서도 R1T2의 반응은 매우 긍정적이었습니다. 사용자들은 모델의 응답 속도, 토큰 효율성, 속도와 일관성 사이의 균형을 칭찬했습니다. 일부 사용자는 R1T2가 수학적으로 무거운 맥락에서 이전 R1 변형보다 더 우수한 성능을 발휘하며, 환각 현상을 더 일관되게 피할 수 있다는 점을 지적하기도 했습니다. R1T2는 Hugging Face에서 공개되어, 커뮤니티 실험, 후속 세부 훈련, 강화 학습 등의 활동을 격려하고 있습니다. TNG에 따르면, 내부 배포는 이미 Chutes 서버리스 추론 플랫폼을 통해 하루에 약 50억 토큰을 처리하고 있습니다. 결론적으로, DeepSeek-TNG R1T2 Chimera는 Assembly-of-Experts 건설 방법을 통해 성능이 우수하고 효율적인 대형 언어 모델을 생성할 수 있다는 가능성을 보여주었습니다. R1의 추론 능력, V3-0324의 토큰 효율성, R1-0528의 개선 사항을 전략적으로 결합함으로써, R1T2는 균형 잡힌 모델 설계를 위한 새로운 표준을 설정했습니다. 671B 매개변수 규모에서도 모델 병합이 효과적으로 작동한다는 사실은, 미래의 매개변수 공간 보간 실험을 위한 틀을 제공하여, 보다 모듈화되고 해석 가능한 LLM 개발을 가능하게 할 것입니다. R1T2에 대한 연구 논문과 오픈 웨이트는 Hugging Face에서 확인할 수 있으며, 이 연구 프로젝트의 모든 신용은 해당 연구자들에게 돌아갑니다. 또한 TNG의 트위터를 팔로우하고, 100,000명 이상의 ML SubReddit에 가입하거나, 뉴스레터를 구독하는 것을 잊지 말기 바랍니다.