MEDITRON-70B: 大規模言語モデルの医療事前学習のスケーリング

大規模言語モデル(LLMs)は、医療知識へのアクセスを民主化する可能性を持っています。多くの研究が、これらのモデルの医療知識と推論能力の向上に注力してきましたが、その結果として得られたモデルはクローズドソース(例:PaLM, GPT-4)であるか、またはスケールが限定的(<= 13B パラメータ)であり、その能力に制限があります。本研究では、大規模な医療用 LLMs へのアクセスを改善するために、7B および 70B パラメータを持つオープンソースの大規模言語モデル群「MEDITRON」を公開します。MEDITRON は Llama-2 を基盤としており(Nvidia の Megatron-LM 分散トレーナーを適応させることで)、包括的に選別された医療コーパス(PubMed 論文や抄録、国際的に認められた医療ガイドラインなど)に基づいて事前学習を拡張しています。4つの主要な医療ベンチマークを使用した評価では、タスク固有のファインチューニングの前後で複数の最先端ベースラインに対して有意な性能向上が示されました。全体的に、MEDITRON はパラメータクラス内の最良の公開ベースラインに対して絶対的な6%の性能向上を達成し、Llama-2 からファインチューニングした最強ベースラインに対して3%の性能向上を達成しました。クローズドソースの LLMs と比較すると、MEDITRON-70B は GPT-3.5 および Med-PaLM を上回り、GPT-4 には5%以内、Med-PaLM-2 には10%以内の差で迫っています。私たちは医療事前学習コーパスのキュレーションと MEDITRON モデルの重みに関するコードを公開することで、より高性能な医療用 LLMs のオープンソース開発を促進することを目指しています。