이 노트북 실행하기 Discord에서 논의하기

5달 전

vLLM+Open WebUI를 사용하여 GLM-4.7-Flash 배포

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

노트북으로 이동

초록

우리는 총 3550억 파라미터, 활성화된 파라미터 320억 개를 가진 오픈소스 전문가 혼합(Mixture-of-Experts, MoE) 대규모 언어 모델인 GLM-4.5를 소개합니다. 이 모델은 사고(Thinking) 모드와 직접 응답(Direct Response) 모드를 모두 지원하는 하이브리드 추론 방식을 특징으로 합니다. 23테라바이트(T) 토큰에 걸친 다단계 훈련과 전문가 모델 반복 최적화, 강화 학습을 통한 포스트-트레이닝을 거친 GLM-4.5는 에이전트 기반, 추론, 코딩(ARC) 등 다양한 과제에서 뛰어난 성능을 보이며, TAU-Bench에서 70.1%, AIME 2024에서 91.0%, SWE-bench Verified에서 64.2%의 점수를 기록했습니다. 여러 경쟁 모델들에 비해 훨씬 적은 파라미터 수를 가짐에도 불구하고, 평가된 모든 모델 중 전체 순위 3위, 에이전트 기반 벤치마크에서는 2위를 기록했습니다. 이를 통해 추론 및 에이전트 기반 AI 시스템 연구를 촉진하고자, GLM-4.5(3550억 파라미터)와 컴팩트 버전인 GLM-4.5-Air(1060억 파라미터)를 함께 공개합니다. 코드, 모델, 보다 자세한 정보는 https://github.com/zai-org/GLM-4.5 에서 확인할 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

이 노트북 실행하기 Discord에서 논의하기

5달 전

vLLM+Open WebUI를 사용하여 GLM-4.7-Flash 배포

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

노트북으로 이동

초록

우리는 총 3550억 파라미터, 활성화된 파라미터 320억 개를 가진 오픈소스 전문가 혼합(Mixture-of-Experts, MoE) 대규모 언어 모델인 GLM-4.5를 소개합니다. 이 모델은 사고(Thinking) 모드와 직접 응답(Direct Response) 모드를 모두 지원하는 하이브리드 추론 방식을 특징으로 합니다. 23테라바이트(T) 토큰에 걸친 다단계 훈련과 전문가 모델 반복 최적화, 강화 학습을 통한 포스트-트레이닝을 거친 GLM-4.5는 에이전트 기반, 추론, 코딩(ARC) 등 다양한 과제에서 뛰어난 성능을 보이며, TAU-Bench에서 70.1%, AIME 2024에서 91.0%, SWE-bench Verified에서 64.2%의 점수를 기록했습니다. 여러 경쟁 모델들에 비해 훨씬 적은 파라미터 수를 가짐에도 불구하고, 평가된 모든 모델 중 전체 순위 3위, 에이전트 기반 벤치마크에서는 2위를 기록했습니다. 이를 통해 추론 및 에이전트 기반 AI 시스템 연구를 촉진하고자, GLM-4.5(3550억 파라미터)와 컴팩트 버전인 GLM-4.5-Air(1060억 파라미터)를 함께 공개합니다. 코드, 모델, 보다 자세한 정보는 https://github.com/zai-org/GLM-4.5 에서 확인할 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp