HyperAI초신경
Back to Headlines

알리바바 Qwen3-235B-A22B-2507, Kimi-2 넘어서

3일 전

중국 전자상거래 거물 알리바바가 자체 개발한 'Qwen' 시리즈 대형 언어 모델(Large Language Model, LLM)로 글로벌 기술 및 비즈니스 커뮤니티에서 큰 파장을 일으키고 있다. 이 모델은 2023년 4월에 출시된 초기 Tongyi Qianwen LLM 챗봇에서 시작해, 2025년 4월에 Qwen 3를 발표하며 더욱 진화했다. 이번 주, 알리바바의 AI 부서인 'Qwen 팀'은 Qwen 시리즈의 최신 업데이트 버전을 발표했으며, 이는 이미 서양의 AI 전문가들 사이에서 주목을 받고 있다. 특히, 2025년 7월 중순에 중국 AI 스타트업 Moonshot이 발표한 Kimi-2 모델보다 더 우수한 성능을 보여주며 주목받았다. 새로운 Qwen3-235B-A22B-2507-Instruct 모델은 Hugging Face에 공개되며, 8비트 부동 소수점(FP8) 버전도 함께 제공되었다. FP8 버전은 모델의 수치 연산을 압축하여 메모리와 처리 능력을 크게 줄이는 방식으로, 성능 저하 없이 사용할 수 있다. 실제로, 이를 통해 조직들은 더 작고 값싼 하드웨어나 클라우드에서 Qwen 3의 기능을 실행할 수 있으며, 빠른 응답 시간, 낮은 에너지 비용, 그리고 대규모 인프라 없이도 배포를 확장할 수 있다. 이는 특히 지연 시간이나 비용 제약이 있는 프로덕션 환경에서 매우 유용하다. 팀에서는 Qwen3의 기능을 단일 노드 GPU 인스턴스나 로컬 개발 머신으로 확장할 수 있고, 대규모 다중 GPU 클러스터가 필요 없다고 설명했다. Qwen 팀은 또한 '하이브리드 추론 모드'를 더 이상 사용하지 않겠다고 발표했다. 이 모드는 2023년 4월에 Qwen 3 출시와 함께 도입되었으며, Nous Research가 처음 선보인 접근 방식에서 영감을 얻었다. 사용자는 '추론 모드' 버튼을 클릭하거나 로컬 또는 개인적으로 실행하는 모델에서 "/think"를 입력하여 이 모드를 수동으로 켜거나 끌 수 있었다. 이 접근 방식은 사용자가 복잡한 질의나 작업에 대해서는 느리지만 토큰 사용량이 많은 추론 모드를 켜고, 간단한 질의에는 비추론 모드를 사용하도록 설계되었다. 하지만 이는 사용자에게 결정의 부담을 주었으며, 일부 경우에는 디자인 복잡성과 불일관된 동작을 초래했다. 이제 Qwen 팀은 "커뮤니티와의 대화와 깊은 고려를 통해 하이브리드 추론 모드를 중단하기로 결정했다. 대신, 지시와 추론 작업에 특화된 별도의 모델 변형을 훈련시키기로 했다"라고 X에서 발표했다. 2507 업데이트는 현재 지시 모델만 제공되고 있으며, 별도의 추론 모델 변형이 향후 출시될 예정이다. 성능 벤치마크와 활용 사례 Qwen3-235B-A22B-Instruct-2507 모델은 그 전 버전에 비해 측정 가능한 개선을 보여준다. 이 모델은 MoE(Mixture-of-Experts) 아키텍처를 유지하며, 추론 시 128명의 전문가 중 8명을 활성화시키며, 총 235억 개의 매개변수 중 22억 개가 활성화된다. FP8 버전은 세부적인 양자화를 통해 더 나은 추론 속도와 메모리 사용 감소를 제공한다. 기업 배포를 위한 설계 많은 오픈소스 LLM들이 연구용으로만 사용하거나 상용화를 위해 API 접근이 필요한 라이선스를 제공하는 것과 달리, Qwen3는 Apache 2.0 라이선스로 기업 배포를 목표로 하고 있다. 이는 기업들이 자유롭게 상업적 응용에 사용할 수 있음을 의미한다. 알리바바 팀은 또한 Qwen-Agent라는 경량 프레임워크를 도입하여 사용자가 에이전트 시스템을 구축할 때 도구 호출 논리를 추상화할 수 있도록 했다. TAU-Retail와 BFCL-v3 같은 벤치마크에 따르면, 지시 모델은 일반적으로 목적에 맞춰 설계된 에이전트의 역할을 수행할 수 있는 것으로 나타났다. 커뮤니티와 업계의 반응 이 출시는 이미 AI 전문가들로부터 좋은 평가를 받고 있다. AI 교육자이자 개인 LLM 챗봇 호스트 Blue Shell AI 창립자인 Paul Couvert는 X에 게시된 차트에서 Qwen3-235B-A22B-Instruct-2507 모델이 Claude Opus 4와 Kimi K2를 벤치마크에서 상회한다고 평가했다. 그는 "Kimi K2보다 더 강력하고 Claude Opus 4보다 더 우수하다"라고 밝혔다. AI 인플루언서 NIK(@ns123abc)는 이를 빠르게 받아들여 "Qwen-3-235B는 김이-2의 존재 의의를 한 주 만에 무효화시켰다"라고 말했다. Hugging Face의 제품 책임자 Jeff Boudier는 배포 장점에 대해 강조하며 "Qwen은 Qwen3에 대한 큰 개선을 조용히 발표했으며, 벤치마크에서 가장 우수한 오픈소스(Kimi K2)와 클로즈드(Claude Opus 4) LLM들을 모두 능가한다"라고 평가했다. 그는 FP8 체크포인트의 빠른 추론, Azure ML에서의 1클릭 배포, Mac이나 Intel의 INT4 빌드를 통한 로컬 사용 지원 등을 칭찬했다. 개발자들의 전반적인 반응은 열광적이며, 이 모델의 성능, 라이선스, 배포 용이성이 취미용 및 전문용 모두에게 어필하고 있다. Qwen 팀의 다음 단계 알리바바는 이미 미래 업데이트를 위한 기반을 마련하고 있다. 별도의 추론 중심 모델이 개발 중이며, Qwen 로드맵은 장기적인 작업 계획이 가능한 에이전트 시스템으로 발전할 예정이다. Qwen2.5-Omni와 Qwen-VL 모델에서 볼 수 있었던 다중 모달 지원도 더 확대될 것으로 예상된다. 이미 Qwen 팀의 구성원들은 새로운 모델 출시를 암시하고 있으며, 웹사이트 URL 문자열에서 Qwen3-Coder-480B-A35B-Instruct 모델이 언급되었다. 이는 480억 개의 매개변수를 가진 MoE 아키텍처로, 100만 토큰 컨텍스트를 지원할 것으로 보인다. Qwen3-235B-A22B-Instruct-2507은 단순히 벤치마크 성능의 진전을 넘어서, 오픈소스 모델이 독점 시스템의 대안으로 자리 잡을 수 있다는 신호를 보내고 있다. 배포의 유연성, 강력한 일반 성능, 그리고 기업 친화적인 라이선스는 이 모델이 경쟁이 심한 분야에서 독특한 이점을 제공한다. 벤더 록인이나 사용 기반 비용의 제약 없이 고급 지시 모델을 AI 스택에 통합하려는 팀들에게 Qwen3는 매우 유력한 후보가 되고 있다.

Related Links