Command Palette

Search for a command to run...

한 달 전

아프리얼-1.5-15b-씽커

아프리얼-1.5-15b-씽커

초록

우리는 Apriel-1.5-15B-Thinker을 소개한다. 이 모델은 단순한 규모 확장이 아닌, 훈련 설계를 통해 최첨단 수준의 성능을 달성한 150억 파라미터의 오픈웨이트 다중모달 추론 모델이다. Pixtral-12B를 기반으로, 점진적인 세 단계 접근법을 적용하였다. 첫째, 사전 훈련을 처음부터 수행하지 않고도 추론 능력을 확장하는 ‘깊이 증강( depth upscaling)’을 수행하였다. 둘째, 단계적 지속적 사전 훈련을 통해, 먼저 기초적인 텍스트 및 시각 이해 능력을 구축한 후, 공간 구조, 구성적 이해, 미세한 인지 능력에 초점을 맞춘 타겟형 합성 데이터 생성을 통해 시각적 추론 능력을 강화하였다. 셋째, 수학, 프로그래밍, 과학, 도구 사용 등 다양한 분야의 명시적 추론 흐름을 포함한 정교하게 선별된 지시-응답 쌍을 기반으로, 고품질 텍스트 전용 지도형 미세조정을 수행하였다. 주목할 점은, 강화 학습이나 선호도 최적화 없이도 경쟁력 있는 성과를 달성했다는 점으로, 이는 본 연구의 데이터 중심 지속적 사전 훈련 전략이 기여한 바를 명확히 드러낸다. 인공 분석 지능 지수(AI Index)에서 Apriel-1.5-15B-Thinker은 52점을 기록하며, 훨씬 적은 계산 자원을 사용함에도 불구하고 DeepSeek-R1-0528과 동등한 성능을 보였다. 10개의 이미지 기반 벤치마크에서 평균적으로 Gemini-2.5-Flash 및 Claude Sonnet-3.7에 비해 5점 이내의 성능 차이를 보이며, 단일 GPU 환경에서의 배포 제약 조건 속에서도 중요한 성과를 달성하였다. 본 연구 결과는, 중간 단계의 전략적 설계만으로도 막대한 규모 없이도 상당한 능력 격차를 줄일 수 있음을 보여주며, 제한된 인프라를 가진 기관들도 최첨단 다중모달 추론 기술에 접근할 수 있음을 시사한다. 본 연구에서는 모델 체크포인트, 모든 훈련 레시피, 평가 프로토콜을 MIT 라이선스 하에 공개하여 오픈소스 연구의 발전을 촉진한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
아프리얼-1.5-15b-씽커 | 연구 논문 | HyperAI초신경