Command Palette
Search for a command to run...
エキスパートのミクストラル
エキスパートのミクストラル
概要
ミクストラル 8x7Bを紹介します。これはスパースなエキスパートの混合(Sparse Mixture of Experts: SMoE)言語モデルです。ミクストラルは、ミストラル 7Bと同じアーキテクチャを持っていますが、各層が8つのフィードフォワードブロック(つまり、エキスパート)で構成されている点が異なります。各トークンについて、各層でルーター・ネットワークが2つのエキスパートを選択し、現在の状態を処理してその出力を結合します。ただし、各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは470億のパラメータにアクセスできますが、推論時には130億のアクティブなパラメータのみを使用します。ミクストラルは32,000トークンのコンテキストサイズで訓練され、評価されたすべてのベンチマークにおいてLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示しました。特に数学、コード生成、多言語ベンチマークではLlama 2 70Bを大幅に上回っています。また、人間の評価基準においてGPT-3.5 Turbo、Claude-2.1、Gemini ProおよびLlama 2 70B - チャットモデルを上回るよう微調整されたモデル「ミクストラル 8x7B - インストラクト」も提供しています。ベースモデルとインストラクトモデルの両方がApache 2.0ライセンスのもとで公開されています。