汎用基盤モデルは特定目的の調整を上回ることができるか?医学における事例研究

一般的な基盤モデルであるGPT-4は、多様な分野やタスクにおいて驚くべき能力を示しています。しかし、これらのモデルが微調整された専門モデルの能力に匹敵できないという見方が一般的です。例えば、これまでの医療コンピテンシーベンチマークに関する大多数の研究では、ドメイン固有のトレーニングが利用されており、BioGPTやMed-PaLMなどの取り組みがその例となっています。私たちは、特殊なトレーニングなしでGPT-4の医療チャレンジベンチマークにおける能力を調査した先行研究に基づいています。単純なプロンプトを使用してモデルの初期段階での能力を強調するのではなく、プロンプトエンジニアリングの体系的な探索を行いました。その結果、プロンプトイノベーションによりより深い専門的能力が解錠され、GPT-4が医療ベンチマークにおける従来の最高結果を容易に上回ることが示されました。私たちが探求したプロンプト手法は汎用的であり、特定のドメイン知識を利用していないため、専門家によるコンテンツ作成の必要性がなくなります。実験設計では、プロンプトエンジニアリング過程での過学習を慎重に制御しています。私たちはMedpromptを導入しました。これは複数のプロンプト戦略を組み合わせたものです。Medpromptを使用することで、GPT-4はMultiMedQAスイート内の9つのベンチマークデータセットすべてで最先端の結果を達成しました。この方法は、専門モデルであるMed-PaLM 2などよりも大幅に優れており、モデルへの呼び出し回数が1桁少ないにもかかわらず高い性能を発揮します。MedpromptによってGPT-4を誘導すると、MedQAデータセットにおいて従来の最良方法(専門モデルを使用)と比較して27%もの誤り率削減が達成され、初めて90%以上のスコアを超えることができました。医療問題以外でも、私たちはMedpromptが他の分野へも一般化できる力を示し、電気工学、機械学習、哲学、会計学、法学、看護学および臨床心理学に関する試験での戦略研究を通じてこのアプローチの一貫した適用可能性について証拠を提供しています。