Discord에서 논의하기

6달 전

지능형 질문 응답

Xiang Hu Zhanchao Zhou Ruiqi Liang Zehuan Li Wei Wu Jianguo Li

초록

본 연구는 '기억할 수 있는 기계'를 구축하는 도전 과제를 탐구하며, 장기 기억을 효율적인 초장거리 컨텍스트 모델링 문제로 재정의한다. 우리는 이러한 문제 해결을 위해 세 가지 핵심 특성이 필요하다고 주장한다: 희소성(sparsity), 임의 접근의 유연성(random-access flexibility), 그리고 길이 일반화(length generalization). 초장거리 컨텍스트 모델링을 해결하기 위해, 이 세 가지 특성을 모두 만족하는 새로운 어텐션 메커니즘인 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA)을 활용한다. HSA를 트랜스포머에 통합하여, 80억 파라미터를 가진 MoE(다수의 모델) 구조를 가진 HSA-UltraLong 모델을 구축하였으며, 이는 8조 이상의 토큰으로 훈련되었고, 도메인 내 및 도메인 외의 다양한 컨텍스트 길이에서 엄격한 평가를 통해 초장거리 컨텍스트 처리 능력을 입증한다. 실험 결과, 본 모델은 도메인 내 컨텍스트 길이에서는 전체 어텐션 기반 베이스라인과 유사한 성능을 보였으며, 최대 1,600만 단어에 이르는 컨텍스트를 가진 대부분의 인-컨텍스트 검색 작업에서 90% 이상의 정확도를 달성하였다. 본 보고서는 실험적 통찰과 미해결 과제를 정리하며, 초장거리 컨텍스트 모델링 분야의 미래 연구에 기초를 마련한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

6달 전

지능형 질문 응답

Xiang Hu Zhanchao Zhou Ruiqi Liang Zehuan Li Wei Wu Jianguo Li

초록

본 연구는 '기억할 수 있는 기계'를 구축하는 도전 과제를 탐구하며, 장기 기억을 효율적인 초장거리 컨텍스트 모델링 문제로 재정의한다. 우리는 이러한 문제 해결을 위해 세 가지 핵심 특성이 필요하다고 주장한다: 희소성(sparsity), 임의 접근의 유연성(random-access flexibility), 그리고 길이 일반화(length generalization). 초장거리 컨텍스트 모델링을 해결하기 위해, 이 세 가지 특성을 모두 만족하는 새로운 어텐션 메커니즘인 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA)을 활용한다. HSA를 트랜스포머에 통합하여, 80억 파라미터를 가진 MoE(다수의 모델) 구조를 가진 HSA-UltraLong 모델을 구축하였으며, 이는 8조 이상의 토큰으로 훈련되었고, 도메인 내 및 도메인 외의 다양한 컨텍스트 길이에서 엄격한 평가를 통해 초장거리 컨텍스트 처리 능력을 입증한다. 실험 결과, 본 모델은 도메인 내 컨텍스트 길이에서는 전체 어텐션 기반 베이스라인과 유사한 성능을 보였으며, 최대 1,600만 단어에 이르는 컨텍스트를 가진 대부분의 인-컨텍스트 검색 작업에서 90% 이상의 정확도를 달성하였다. 본 보고서는 실험적 통찰과 미해결 과제를 정리하며, 초장거리 컨텍스트 모델링 분야의 미래 연구에 기초를 마련한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

모든 토큰이 중요하다: 대규모 언어 모델에서 16M 초장거리 컨텍스트의 일반화 | 문서 | HyperAI초신경