Command Palette

Search for a command to run...

19일 전

확산 언어 모델은 초고속 데이터 학습자이다

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

확산 언어 모델은 초고속 데이터 학습자이다

초록

엄격하게 통제된 사전 훈련 환경에서, 우리는 '교차점(Crossover)'을 관찰한다. 즉, 고유 데이터가 제한적인 경우, 확산 언어 모델(DLMs)은 더 많은 에포크를 훈련함으로써 지속적으로 자기회귀(AR) 모델을 능가한다. 교차점은 데이터가 더 많거나 품질이 높을수록 더 늦어지고, 모델이 클수록 더 빨라지며, 밀집형과 희소형 아키텍처 간에 모두 지속된다. 이러한 성능 향상은 세 가지 복합적인 요인에 기인한다: (1) 임의의 순서로 모델링이 가능하다는 점, (2) 반복적인 양방향 노이즈 제거를 통한 초고밀도 컴퓨팅, (3) 내장된 몬테카를로 증강(Monte Carlo augmentation) 기능. 입력 또는 파라미터 노이즈는 데이터 제약 하에서 AR 모델의 성능을 향상시킬 수는 있으나, 성능 격차를 완전히 해소할 수는 없다. 대규모 환경에서는, 100억 개의 고유 Python 토큰을 기반으로 약 1.5조 토큰의 계산 자원(1.7B 파라미터)을 사용해 훈련된 DLM이, 동일한 설정으로 훈련된 AR 코더를 능가한다. 또한, 10억 파라미터의 DLM은 특별한 기술 없이도 표준 사전 훈련 데이터를 반복만 함으로써, HellaSwag에서 56% 이상, MMLU에서 33% 이상의 정확도를 달성한다. 더불어, 이 환경에서는 검증용 교차 엔트로피가 증가하더라도 하류 작업 성능이 저하된다는 의미는 아님을 보여준다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
확산 언어 모델은 초고속 데이터 학습자이다 | 연구 논문 | HyperAI초신경