HyperAI초신경
Back to Headlines

텐센트, 130억 파라미터 MoE 모델 Hunyuan-A13B 오픈소스 발표

2일 전

테나트의 훈원팀이 새로운 오픈 소스 대형 언어 모델인 훈원-A13B를 선보였습니다. 이 모델은 총 800억 개의 파라미터를 가지고 있지만, 추론 시에는 130억 개의 파라미터만 활성화되어 성능과 계산 비용 사이에서 높은 효율성을 제공합니다. 훈원-A13B는 그룹 쿼리 주목(GQA)을 지원하며, 256K 컨텍스트 길이와 빠른 사고와 느린 사고를 전환할 수 있는 듀얼 모드 추론 프레임워크를 갖추고 있습니다. 설계 및 성능 훈원-A13B는 에이전트 벤치마크(BFCL-v3, τ-Bench, C3-Bench, ComplexFuncBench)에서 최고 등급의 성능을 보여주며, 특히 도구 호출과 긴 컨텍스트 시나리오에서 더 큰 모델보다 뛰어난 성능을 발휘합니다. 아키텍처: 130억 활성 파라미터를 가진 희소 MoE 훈원-A13B의 핵심은 1개의 공유 전문가와 64개의 비공유 전문가로 구성된 세부적인 Mixture-of-Experts(MoE) 설계입니다. 각 순전파 과정에서는 8개의 전문가만 활성화됩니다. 이 아키텍처는 스케일링 실험을 통해 성능 일관성을 유지하면서도 추론 비용을 낮추는 데 효과적입니다. 모델은 32개의 레이어를 갖추고 있으며, SwiGLU 활성화 함수, 128K의 어휘 크기, 그리고 GQA를 통한 장기 컨텍스트 추론 시 메모리 효율성을 강화하는 기능을 통합하고 있습니다. 듀얼 모드 추론: 빠른 사고와 느린 사고 훈원-A13B의 돋보이는 기능 중 하나는 듀얼 모드 Chain-of-Thought(CoT) 능력입니다. 빠른 응답을 요구하는 루틴 쿼리를 위한 저지연 빠른 사고 모드와 다단계 추론을 위한 더욱 복잡한 느린 사고 모드를 지원합니다. 이러한 모드는 /no think(빠른 추론)와 /think(깊은 고찰)라는 간단한 태그 시스템으로 제어됩니다. 이 유연성은 사용자가 작업 복잡도에 따라 계산 비용을 조절할 수 있게 해줍니다. 후속 학습: 태스크별 보상 모델을 활용한 강화 학습 훈원-A13B의 후속 학습 파이프라인은 추론 특정 태스크와 일반 태스크 모두에 대한 여러 단계의 감독 학습(SFT)과 강화 학습(RL)을 포함합니다. RL 단계에서는 결과 기반 보상과 도구별 피드백, 코드 실행 환경의 샌드박스, 그리고 에이전트의 규칙 기반 검사를 통합합니다. 에이전트 학습 단계에서는 플래너, 체커, 도구 역할을 포함한 다양한 도구 사용 시나리오를 합성하여 20,000개 이상의 포맷 조합을 생성했습니다. 이를 통해 훈원-A13B는 스프레드시트 처리, 정보 검색, 구조화된 추론 등의 실제 워크플로우를 수행하는 능력을 강화했습니다. 평가: 최고 수준의 에이전트 성능 훈원-A13B는 다양한 NLP 태스크에서 우수한 벤치마크 결과를 보여줍니다. 특히 장기 컨텍스트 이해에 있어 PenguinScrolls에서 87.7점으로 Gemini 2.5 Pro에 근접한 성능을 발휘하며, RULER에서 64K–128K 컨텍스트에서도 높은 성능(73.9점)을 유지해 Qwen3-A22B와 DeepSeek R1 같은 더 큰 모델보다 컨텍스트 회복력에서 앞섭니다. 추론 최적화 및 배포 훈원-A13B는 vLLM, SGLang, TensorRT-LLM 등 인기 있는 추론 프레임워크와 완전히 통합되어 있습니다. W16A16, W8A8, KV Cache FP8 등의 정밀도 형식과 Auto Prefix Caching, Chunk Prefill 등의 기능을 지원하며, 32개 배치 입력(2048 입력, 14336 출력 길이)에서 최대 1981.99 토큰/초의 처리량을 달성해 실시간 애플리케이션에 적합합니다. 오픈 소스 및 산업 관련성 훈원-A13B는 라이선스가 허용적인 오픈 소스 형태로 Hugging Face와 GitHub에서 제공됩니다. 저지연 환경과 장기 컨텍스트 태스크에 특화되어 연구 및 생산 사용에 효율적입니다. MoE 확장성, 에이전트 추론, 그리고 오픈 소스 접근성을 결합한 테나트의 훈원-A13B는 무거운 대형 언어 모델의 대안으로, 실험과 배포의 폭을 넓히면서도 능력을 포기하지 않는 매력적인 옵션을 제공합니다. 업계 전문가들은 이 모델이 저비용으로 높은 성능을 유지하는 동시에 다양한 응용 분야에서 활용 가능하다고 평가합니다. 훈원팀은 지속적인 연구와 개발을 통해 이 모델의 잠재력을 최대한 발휘하려고 노력하고 있으며, 특히 실시간 응용 분야에서의 성능 향상을 위해 집중하고 있습니다.

Related Links