概要

私たちはMagistralを紹介します。これはMistralの最初の推論モデルであり、また私たち自身が開発したスケーラブルな強化学習（Reinforcement Learning: RL）パイプラインです。既存の実装や以前のモデルから抽出されたRLトレースに依存するのではなく、自社のモデルとインフラストラクチャのみを使用して、一からアプローチを行いました。特に、このスタックにより、LLM（大規模言語モデル）の純粋なRL訓練の限界を探る機会を得ました。また、モデルの推論言語を強制するための単純な方法を提示し、テキストデータのみでのRLが初期チェックポイントの大半の機能を維持することを示しています。テキストデータでのRLは、マルチモーダル理解、指示追従、関数呼び出しにおいて性能を維持または向上させることを見出しました。Magistral Mediumは、Mistral Medium 3上での推論に特化してRLのみで訓練されたモデルであり、さらにApache 2.0ライセンスのもとでオープンソース化されたMagistral Smallには、Magistral Mediumからのコールドスタートデータが含まれています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

概要

Command Palette

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal90 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal90 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal90 more

概要

AIでAIを構築

HyperAI Newsletters

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal

Mistral-AI Abhinav Rastogi Albert Q. Jiang Andy Lo Gabrielle Berrada Guillaume Lample Jason Rute Joep Barmentlo Karmesh Yadav Kartik Khandelwal