HyperAI초신경
Back to Headlines

독일 팀, DeepSeek 기반 R1T2 모델 출시…속도 200% 향상

2일 전

DeepSeek-R2의 출시가 지연되자, 독일 TNG Technology Consulting GmbH(TNG) 팀은 DeepSeek R1-0528을 기반으로 속도를 200% 높인 DeepSeek-TNG R1T2 Chimera 모델(R1T2)을 개발했습니다. R1T2는 6710억 개의 파라미터를 가진 오픈 소스 하이브리드 모델로, TNG 팀의 Chimera 시리즈 중 최신 버전입니다. DeepSeek-R1-0528은 확장된 사고 체인 추론으로 긴 답변을 제공하는 경향이 있었지만, R1T2는 더 간결하면서도 똑같이 영리한 답변을 생성합니다. 이를 위해 TNG 팀은 다시 한 번 '익스퍼트 집합(AoE, Assembly-of-Experts)' 방법을 사용했습니다. TNG의 공동 창립자인 헨릭 클라그스(Henrik Klagges)는 관련 논문의 제1저자로, 24년 동안 TNG를 공동 운영하고 있습니다. 클라그스는 1994년 영국 옥스포드 대학을 졸업한 후 2001년 TNG를 설립했습니다. 현재 TNG는 917명의 직원을 보유하고 있으며, 99.9%가 학술 인력으로 구성되어 있고, 50% 이상이 수학, 물리학, 컴퓨터 과학 박사 학위를 가지고 있어, 이 팀이 DeepSeek 변형 모델을 개발하는데 있어 무명이 아님을 입증합니다. R1T2는 DeepSeek-R1T-Chimera 모델(R1T)의 후속 버전으로, DeepSeek-R1의 추론 성능을 유지하면서 효율성과 속도를 크게 향상시켰습니다. R1T2는 DeepSeek-R1-0528, DeepSeek-R1, DeepSeek-V3-0324 등 세 가지 부모 모델을 결합한 새로운 "트라이-마인드(Tri-Mind)" 설정을 도입했습니다. 이 설정 덕분에 R1T2는 추가적인 미세 조정이나 재훈련 없이도 부모 모델들의 장점을 상속하여 더욱 효율적이고 강력한 모델이 되었습니다. TNG 팀이 제공한 벤치마크 결과에 따르면, R1T2는 AIME-24, AIME-25, GPQA-Diamond 테스트셋에서 가장 영리한 부모 모델인 DeepSeek-R1-0528의 추론 성능의 90%~92%를 달성했습니다. TNG 팀은 원시 처리 시간이나 매초 처리되는 토큰 수보다 각 답변의 출력 토큰 수를 통해 "속도"를 측정합니다. 이는 비용과 지연 시간을 동시에 반영하는 실용적인 지표로, R1T2가 DeepSeek-R1-0528보다 약 40%의 토큰만 사용하여 응답을 생성하기 때문에, 출력 길이가 60% 줄어들어 추론 시간과 컴퓨팅 부하를 크게 줄일 수 있고, 이로 인해 속도가 200% 향상되었습니다. 또한, R1T2는 평균적으로 DeepSeek-R1보다 약 20% 더 간결해져 고속 또는 비용 민감한 배포 환경에서 큰 효율성을 제공합니다. R1T2는 이러한 효율성을 높이면서도 지능을 포기하지 않은 것이 특징입니다. TNG 팀의 벤치마크 차트에 따르면, R1T2는 "지능 대 출력 비용" 곡선에서 이상적인 위치를 차지하고 있으며, 추론 품질을 유지하면서도 불필요한 출력을 크게 줄일 수 있습니다. 이는 특히 추론 속도, 처리량, 비용 등에 엄격한 요구 사항을 가진 기업용 애플리케이션에서 중요한 특성입니다. TNG 팀이 제안한 '익스퍼트 집합(AoE)' 방법은 '혼합 익스퍼트(MoE, Mixture-of-Experts)'와 다르며, 여러 사전 훈련된 모델의 가중치 텐서(내부 매개변수)를 선택적으로 병합하여 대규모 모델을 구축하는 기술입니다. MoE는 서로 다른 구성 요소나 "익스퍼트"가 입력에 따라 조건부로 활성화되는 아키텍처 설계입니다. 예를 들어, 256개의 익스퍼트 중 8개만 활성화될 수 있습니다. 이 방법은 모델의 매개변수를 늘리고 전문화를 강화하면서도, 각 토큰당 활성화되는 서브모듈의 수를 제한하여 추론 비용을 통제할 수 있게 합니다. AoE는 모델 융합 기술로, MoE 모델의 가중치 텐서를 선형 시간 내에 결합하여 효율적인 하위 모델 변형을 생성합니다. 가중치 텐서는 개별적으로 보간 처리되어 부모 모델의 의미 특성을 강화하거나 억제할 수 있습니다. 부모 모델에서 추출되는 가중치 비율을 변경하면 AoE 하위 모델의 일부 특성이 점진적으로 변화하고, 다른 행동 특성은 급격히 변화할 수 있다. TNG 팀은 주로 추론을 담당하는 라우팅 익스퍼트 텐서를 결합하며, DeepSeek-V3-0324와 같은 빠른 모델에서 더 효율적인 공유 레이어와 어텐션 레이어를 유지함으로써, R1T와 R1T2 시리즈의 Chimera 모델을 생성하였습니다. R1T2는 CTO, AI 플랫폼 소유주, 엔지니어링 팀장, IT 구매 팀에게 다음과 같은 실질적인 혜택과 전략적 선택을 제공합니다: 1. 낮은 추론 비용: 각 작업의 출력 토큰 수가 적어 GPU 시간과 에너지 사용량을 줄여 인프라 비용을 직접 절감할 수 있습니다. 이는 고처리량 또는 실시간 환경에서 특히 중요합니다. 2. 고품질 추론에 불필요한 정보 없음: R1T2는 DeepSeek-R1-0528과 같은 최고 모델의 대부분 추론 능력을 유지하면서 그들의 긴 답변 문제를 해결합니다. 이는 수학, 프로그래밍, 논리 등 구조화된 작업에서 간결한 답변이 더 선호되는 경우에 매우 적합합니다. 3. 오픈 소스이자 수정 가능: MIT 라이선스는 완전한 배포 제어와 커스터마이징을 허용하여, 규제 환경이나 격리 환경에서 개인 호스팅, 모델 정렬, 추가 훈련 등을 지원합니다. 4. 새로운 모듈화 트렌드: AoE 방법은 모델이 모듈화 방식으로 구축될 미래를 예고합니다. 이 미래 시나리오에서는 기업들이 처음부터 다시 훈련할 필요 없이, 기존 모델의 장점을 재조합하여 전문적인 변형을 생성할 수 있을 것입니다. R1T2는 함수 호출, 도구 사용, 고급 에이전트 조정 등이 필요한 기업들에게는 현재의 한계를 인식해야 합니다. 그러나 향후 Chimera 업데이트를 통해 이러한 부족한 부분이 개선될 가능성이 있습니다. 현재 TNG 팀은 OpenRouter와 Chutes 등에서 초기 Chimera 변형을 제공하고 있으며, 이들 플랫폼은 매일 수십억 개의 토큰을 처리합니다. R1T2의 출시는 이러한 공개 가능한 작업의 발전을 의미합니다. TNG 팀은 R1T2가 일반적인 추론 작업에 매우 적합하지만, DeepSeek-R1 시리즈에서 유래한 제약 때문에 함수 호출이나 도구 사용이 필요한 경우 현재는 사용을 권장하지 않는다고 강조합니다. 유럽 기업들은 2025년 8월 2일에 시행될 예정인 EU AI 법안에 부합하는지 평가해야 합니다. EU에서 운영되는 기업들은 해당 법안의 요구 사항을 준수하지 못하면 사용을 중단해야 할 수도 있습니다. 한편, 미국 기업들은 미국 내에서 운영되고 미국 이용자 또는 다른 국가의 이용자에게 서비스를 제공하는 경우 EU AI 법안의 규정에 제약받지 않아, 이 무료이고 빠른 오픈 소스 추론 모델을 사용하고 배포하는 데 있어 큰 유연성을 갖게 됩니다. 그러나 EU 이용자에게 서비스를 제공하는 경우에도 일부 규정이 적용됩니다. 전반적으로, 국내 개발자들이 해외 모델을 기반으로 변형 연구를 진행하던 상황에서 이제는 해외 팀들이 국내 모델을 기반으로 변형을 개발하는 추세가 나타나고 있습니다. 이는 중국 기술 산업이 세계 기술 시장에서 추종자에서 동등한 경쟁자로, 그리고 점차 리더로 성장하는 대세를 반영하고 있습니다. 이러한 혁신은 AI 분야에서 유럽 기업들의 사용 제한을 야기할 가능성이 있지만, 동시에 미국 기업들에게는 큰 기회를 제공합니다. R1T2의 출시는 TNG 팀의 기술적인 진보와 함께, 오픈 소스 AI 모델의 미래를 더욱 밝게 비춰줍니다.

Related Links