Command Palette

Search for a command to run...

2달 전

UltraMemV2: 1200억 파라미터까지 확장되는 메모리 네트워크 및 우수한 장문맥 학습 성능

UltraMemV2: 1200억 파라미터까지 확장되는 메모리 네트워크 및 우수한 장문맥 학습 성능

초록

혼합 전문가(Mixture of Experts, MoE) 모델은 전용 파라미터 서브셋만 활성화함으로써 놀라운 효율성을 달성하지만, 추론 과정에서 높은 메모리 접근 비용을 겪는 문제가 있다. 메모리 계층 구조(memory-layer architecture)는 매우 낮은 메모리 접근 비용을 제공하는 매력적인 대안이지만, 기존의 시도인 UltraMem과 같은 사례들은 2개 전문가를 가진 MoE 모델 수준의 성능에 그치며, 최신 8개 전문가 구성의 상태 수준 모델에 비해 크게 뒤처지고 있다. 본 연구에서는 이러한 성능 격차를 해소하는 새로운 메모리 계층 구조인 UltraMemV2를 제안한다. 우리의 접근법은 다섯 가지 핵심 개선점을 도입한다: 트랜스포머 블록마다 메모리 계층을 통합하고, 단일 선형 투영을 통해 값(value) 확장을 단순화하며, PEER에서 채택한 FFN 기반의 값 처리 방식을 적용하고, 체계적인 파라미터 초기화 전략을 도입하며, 메모리와 FFN 간의 계산 비율을 재균형화하는 것이다. 광범위한 평가를 통해 UltraMemV2가 동일한 계산량과 파라미터 수를 가진 8개 전문가 MoE 모델과 동등한 성능을 달성하면서도 메모리 접근 비용이 크게 낮다는 점을 입증한다. 특히, 메모리 집약적인 작업에서 UltraMemV2는 뛰어난 성능을 보이며, 긴 컨텍스트 기억력에서 +1.6점, 다중 라운드 기억력에서 +6.2점, 그리고 컨텍스트 내 학습에서 +7.9점의 성능 향상을 기록한다. 우리는 총 파라미터 수 120B 중 활성화된 파라미터 수가 최대 2.5B에 이르는 대규모 모델을 활용하여 본 방법의 타당성을 검증하였으며, 활성화 밀도가 전체 희소 파라미터 수보다 성능에 더 큰 영향을 미친다는 점을 확인하였다. 본 연구는 메모리 계층 구조가 최신 MoE 모델과 동등한 성능을 달성하게 하여, 효율적인 희소 계산을 위한 설득력 있는 대안을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UltraMemV2: 1200억 파라미터까지 확장되는 메모리 네트워크 및 우수한 장문맥 학습 성능 | 연구 논문 | HyperAI초신경