8ヶ月前

監視付き微調整

テキスト生成

アプローチ／フレームワーク

自然言語処理

Albert Q. Jiang Alexandre Sablayrolles Antoine Roux Arthur Mensch Blanche Savary Chris Bamford Devendra Singh Chaplot Diego de las Casas Emma Bou Hanna Florian Bressand

概要

ミクストラル 8x7Bを紹介します。これはスパースなエキスパートの混合（Sparse Mixture of Experts: SMoE）言語モデルです。ミクストラルは、ミストラル 7Bと同じアーキテクチャを持っていますが、各層が8つのフィードフォワードブロック（つまり、エキスパート）で構成されている点が異なります。各トークンについて、各層でルーター・ネットワークが2つのエキスパートを選択し、現在の状態を処理してその出力を結合します。ただし、各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは470億のパラメータにアクセスできますが、推論時には130億のアクティブなパラメータのみを使用します。ミクストラルは32,000トークンのコンテキストサイズで訓練され、評価されたすべてのベンチマークにおいてLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示しました。特に数学、コード生成、多言語ベンチマークではLlama 2 70Bを大幅に上回っています。また、人間の評価基準においてGPT-3.5 Turbo、Claude-2.1、Gemini ProおよびLlama 2 70B - チャットモデルを上回るよう微調整されたモデル「ミクストラル 8x7B - インストラクト」も提供しています。ベースモデルとインストラクトモデルの両方がApache 2.0ライセンスのもとで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

監視付き微調整

テキスト生成

アプローチ／フレームワーク

自然言語処理

Albert Q. Jiang Alexandre Sablayrolles Antoine Roux Arthur Mensch Blanche Savary Chris Bamford Devendra Singh Chaplot Diego de las Casas Emma Bou Hanna Florian Bressand

概要

ミクストラル 8x7Bを紹介します。これはスパースなエキスパートの混合（Sparse Mixture of Experts: SMoE）言語モデルです。ミクストラルは、ミストラル 7Bと同じアーキテクチャを持っていますが、各層が8つのフィードフォワードブロック（つまり、エキスパート）で構成されている点が異なります。各トークンについて、各層でルーター・ネットワークが2つのエキスパートを選択し、現在の状態を処理してその出力を結合します。ただし、各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは470億のパラメータにアクセスできますが、推論時には130億のアクティブなパラメータのみを使用します。ミクストラルは32,000トークンのコンテキストサイズで訓練され、評価されたすべてのベンチマークにおいてLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示しました。特に数学、コード生成、多言語ベンチマークではLlama 2 70Bを大幅に上回っています。また、人間の評価基準においてGPT-3.5 Turbo、Claude-2.1、Gemini ProおよびLlama 2 70B - チャットモデルを上回るよう微調整されたモデル「ミクストラル 8x7B - インストラクト」も提供しています。ベースモデルとインストラクトモデルの両方がApache 2.0ライセンスのもとで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています