HyperAIHyperAI

Command Palette

Search for a command to run...

エキスパートのミクストラル

概要

ミクストラル 8x7Bを紹介します。これはスパースなエキスパートの混合(Sparse Mixture of Experts: SMoE)言語モデルです。ミクストラルは、ミストラル 7Bと同じアーキテクチャを持っていますが、各層が8つのフィードフォワードブロック(つまり、エキスパート)で構成されている点が異なります。各トークンについて、各層でルーター・ネットワークが2つのエキスパートを選択し、現在の状態を処理してその出力を結合します。ただし、各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは470億のパラメータにアクセスできますが、推論時には130億のアクティブなパラメータのみを使用します。ミクストラルは32,000トークンのコンテキストサイズで訓練され、評価されたすべてのベンチマークにおいてLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示しました。特に数学、コード生成、多言語ベンチマークではLlama 2 70Bを大幅に上回っています。また、人間の評価基準においてGPT-3.5 Turbo、Claude-2.1、Gemini ProおよびLlama 2 70B - チャットモデルを上回るよう微調整されたモデル「ミクストラル 8x7B - インストラクト」も提供しています。ベースモデルとインストラクトモデルの両方がApache 2.0ライセンスのもとで公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています