Discord에서 논의하기

일 년 전

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal

초록

우리는 Magistral을 소개합니다. 이는 Mistral의 첫 번째 추론 모델이며, 우리 자신의 확장 가능한 강화학습(RL) 파이프라인을 소개하는 것입니다. 기존 구현 및 이전 모델에서 추출한 RL 트레이스에 의존하지 않고, 오직 우리 자신의 모델과 인프라스트럭처만을 사용하여 근본적인 접근 방식을 취했습니다. 특히, 우리는 순수한 RL 훈련으로 LLMs의 한계를 탐구할 수 있는 스택을 시연하였으며, 모델의 추론 언어를 강제하는 간단한 방법을 제시하였고, 텍스트 데이터만으로 RL 훈련이 초기 체크포인트의 대부분 능력을 유지함을 보여주었습니다. 우리는 텍스트에 대한 RL 훈련이 다중모달 이해, 명령어 따르기 및 함수 호출 능력을 유지하거나 개선한다는 것을 발견하였습니다. Magistral Medium은 Mistral Medium 3 위에서 RL만으로 훈련된 모델이며, Magistral Small(Apache 2.0)는 이를 오픈 소스로 제공하며, Magistral Medium에서 얻은 콜드스타트 데이터를 추가로 포함하고 있습니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal

초록

우리는 Magistral을 소개합니다. 이는 Mistral의 첫 번째 추론 모델이며, 우리 자신의 확장 가능한 강화학습(RL) 파이프라인을 소개하는 것입니다. 기존 구현 및 이전 모델에서 추출한 RL 트레이스에 의존하지 않고, 오직 우리 자신의 모델과 인프라스트럭처만을 사용하여 근본적인 접근 방식을 취했습니다. 특히, 우리는 순수한 RL 훈련으로 LLMs의 한계를 탐구할 수 있는 스택을 시연하였으며, 모델의 추론 언어를 강제하는 간단한 방법을 제시하였고, 텍스트 데이터만으로 RL 훈련이 초기 체크포인트의 대부분 능력을 유지함을 보여주었습니다. 우리는 텍스트에 대한 RL 훈련이 다중모달 이해, 명령어 따르기 및 함수 호출 능력을 유지하거나 개선한다는 것을 발견하였습니다. Magistral Medium은 Mistral Medium 3 위에서 RL만으로 훈련된 모델이며, Magistral Small(Apache 2.0)는 이를 오픈 소스로 제공하며, Magistral Medium에서 얻은 콜드스타트 데이터를 추가로 포함하고 있습니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

마지스틀라르 | 문서 | HyperAI초신경