HyperAIHyperAI

Command Palette

Search for a command to run...

온라인 튜토리얼 | 위챗 AI 팀, vLLM 대비 AR 모델 배포 추론 속도 3배 향상, WeDLM 확산 언어 모델 제안

Featured Image

대규모 배포 및 상용 애플리케이션에서 추론 속도는 점점 더 중요해지고 있으며, 많은 경우 모델 매개변수의 개수보다 더 중요해져서 엔지니어링 가치를 결정하는 핵심 요소가 되고 있습니다. 자기회귀(AR) 생성 패러다임은 안정성과 성숙한 생태계 덕분에 여전히 주류 디코딩 방법으로 남아 있지만,하지만 토큰 단위로 생성하는 고유한 메커니즘 때문에 추론 단계에서 병렬 컴퓨팅 리소스를 완전히 활용하는 것이 거의 불가능합니다.이러한 한계는 특히 긴 텍스트 생성, 복잡한 추론 및 높은 동시성 서비스와 관련된 시나리오에서 두드러지며, 추론 지연 시간과 컴퓨팅 비용을 직접적으로 증가시킵니다.

이러한 병목 현상을 극복하기 위해 연구계는 최근 몇 년 동안 병렬 디코딩 경로를 지속적으로 연구해 왔습니다.그중에서도 확산 언어 모델(DLM)은 "단계별로 여러 토큰을 생성하는" 특성 때문에 가장 유망한 대안 중 하나로 여겨집니다.하지만 이상적인 상황과 현실 사이에는 여전히 상당한 격차가 존재합니다. 실제 배포 환경에서 많은 DLLM은 예상했던 속도 우위를 보여주지 못했고, 심지어 고도로 최적화된 AR 추론 엔진(예: vLLM)보다 성능이 떨어지는 경우도 있습니다. 이러한 문제는 병렬 처리 자체의 문제가 아니라, 모델 구조와 시스템 수준 내부에 숨겨진 더 깊은 갈등에서 비롯됩니다.기존의 많은 확산 방법은 양방향 어텐션 메커니즘에 의존하는데, 이는 현대 추론 시스템의 효율성 핵심인 접두사 키-값 캐싱을 약화시키고 모델이 컨텍스트를 반복적으로 재계산하게 하여 병렬 처리의 잠재적 이점을 무효화합니다.

이러한 맥락에서,텐센트의 위챗 AI 팀은 WeDLM(위챗 확산 언어 모델)을 제안했습니다.이는 산업용 추론 엔진(vLLM) 최적화 환경에서 유사한 AR 모델보다 추론 속도가 우수한 최초의 확산 언어 모델입니다. 핵심 아이디어는 엄격한 인과적 마스킹을 유지하면서 각 마스킹된 위치를 현재 관찰된 모든 토큰에 조건부로 적용하는 것입니다. 이를 위해 연구진은 관찰된 토큰의 논리적 위치는 변경하지 않고 물리적 접두사 영역으로 이동시키는 위상 재정렬 방법을 도입했습니다.

실험 결과에 따르면 WeDLM은 강력한 자기회귀 백본 생성의 품질을 유지하면서 추론 속도를 크게 향상시키는 것으로 나타났습니다. 특히, 수학적 추론과 같은 작업에서 vLLM으로 배포된 AR 모델보다 3배 이상 빠른 속도를 달성했으며, 낮은 엔트로피 시나리오에서의 추론 효율은 10배 이상 향상되었습니다.

현재 "WeDLM 고효율 대규모 언어 모델 디코딩 프레임워크"는 HyperAI 웹사이트의 "튜토리얼" 섹션에서 이용 가능합니다. 아래 링크를 통해 온라인 튜토리얼을 체험해 보세요 ⬇️

온라인 튜토리얼:

https://go.hyper.ai/qf0Y6

오픈소스 주소:

https://github.com/tencent/WeDLM

 HyperAI는 모든 사용자가 온라인 튜토리얼을 더욱 원활하게 이용할 수 있도록 컴퓨팅 파워 혜택도 제공합니다.신규 사용자는 가입 후 "WeDLM" 코드를 사용하여 NVIDIA GeForce RTX 5090을 2시간 동안 무료로 이용할 수 있습니다(유효기간은 1개월).수량이 한정되어 있으니 지금 바로 구매하세요!

데모 실행

1. hyper.ai 홈페이지에 접속한 후 "튜토리얼" 페이지를 선택하거나 "더 많은 튜토리얼 보기"를 클릭하고 "WeDLM 고효율 대규모 언어 모델 디코딩 프레임워크"를 선택한 다음 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "종량제" 또는 "일일 요금제/주간 요금제/월간 요금제"를 선택한 다음 "작업 실행 계속"을 클릭합니다.

HyperAI는 신규 사용자를 위한 등록 혜택을 제공합니다.단 $1로 20시간 동안 RTX 5090의 컴퓨팅 성능을 이용할 수 있습니다(정가 $7).해당 리소스는 영구적으로 유효합니다.

4. 리소스 할당이 완료될 때까지 기다립니다. 상태가 "실행 중"으로 변경되면 "워크스페이스 열기"를 클릭하여 Jupyter 워크스페이스에 들어갑니다.

효과 시연

1. 페이지가 리디렉션된 후 왼쪽의 README 페이지를 클릭하고 상단의 실행을 클릭합니다.

2. 과정이 완료되면 오른쪽에 있는 API 주소를 클릭하여 데모 페이지로 이동하세요.

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:https://go.hyper.ai/qf0Y6

온라인 튜토리얼 | 위챗 AI 팀, vLLM 대비 AR 모델 배포 추론 속도 3배 향상, WeDLM 확산 언어 모델 제안 | 뉴스 | HyperAI초신경