HyperAIHyperAI

Command Palette

Search for a command to run...

汎用基盤モデルは特定目的の調整を上回ることができるか?医学における事例研究

Harsha Nori*†, Yin Tat Lee*†, Sheng Zhang*, Dean Carignan, Richard Edgar, Nicolo Fusi, Nicholas King, Jonathan Larson, Yuanzhi Li, Weishung Liu, Renqian Luo, Scott Mayer McKinney†, Robert Osazuwa Ness, Hoifung Poon, Tao Qin, Naoto Usuyama, Chris White, and Eric Horvitz‡

概要

一般的な基盤モデルであるGPT-4は、多様な分野やタスクにおいて驚くべき能力を示しています。しかし、これらのモデルが微調整された専門モデルの能力に匹敵できないという見方が一般的です。例えば、これまでの医療コンピテンシーベンチマークに関する大多数の研究では、ドメイン固有のトレーニングが利用されており、BioGPTやMed-PaLMなどの取り組みがその例となっています。私たちは、特殊なトレーニングなしでGPT-4の医療チャレンジベンチマークにおける能力を調査した先行研究に基づいています。単純なプロンプトを使用してモデルの初期段階での能力を強調するのではなく、プロンプトエンジニアリングの体系的な探索を行いました。その結果、プロンプトイノベーションによりより深い専門的能力が解錠され、GPT-4が医療ベンチマークにおける従来の最高結果を容易に上回ることが示されました。私たちが探求したプロンプト手法は汎用的であり、特定のドメイン知識を利用していないため、専門家によるコンテンツ作成の必要性がなくなります。実験設計では、プロンプトエンジニアリング過程での過学習を慎重に制御しています。私たちはMedpromptを導入しました。これは複数のプロンプト戦略を組み合わせたものです。Medpromptを使用することで、GPT-4はMultiMedQAスイート内の9つのベンチマークデータセットすべてで最先端の結果を達成しました。この方法は、専門モデルであるMed-PaLM 2などよりも大幅に優れており、モデルへの呼び出し回数が1桁少ないにもかかわらず高い性能を発揮します。MedpromptによってGPT-4を誘導すると、MedQAデータセットにおいて従来の最良方法(専門モデルを使用)と比較して27%もの誤り率削減が達成され、初めて90%以上のスコアを超えることができました。医療問題以外でも、私たちはMedpromptが他の分野へも一般化できる力を示し、電気工学、機械学習、哲学、会計学、法学、看護学および臨床心理学に関する試験での戦略研究を通じてこのアプローチの一貫した適用可能性について証拠を提供しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
汎用基盤モデルは特定目的の調整を上回ることができるか?医学における事例研究 | 記事 | HyperAI超神経