2ヶ月前
Mistral 7B
Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

要約
私たちは、優れた性能と効率性を追求して設計された70億パラメータの言語モデル、Mistral 7B v0.1を紹介します。Mistral 7Bは、すべての評価ベンチマークにおいてLlama 2 13Bを上回り、推論、数学、コード生成においてLlama 1 34Bも凌駕しています。当社のモデルは、より高速な推論を実現するためのグループ化クエリアテンション(GQA)と、推論コストを削減しながら任意の長さのシーケンスを効果的に処理するスライディングウィンドウアテンション(SWA)を利用しています。また、人間および自動化されたベンチマークでLlama 2 13B -- Chatモデルを上回る指示に従うように微調整されたモデル、Mistral 7B -- Instructも提供しています。これらのモデルはApache 2.0ライセンスのもとで公開されています。