HyperAIHyperAI
il y a 2 mois

Peut-on les modèles fondationnels généralistes surpasser l'ajustement spécialisé ? Étude de cas en médecine

Harsha Nori; Yin Tat Lee; Sheng Zhang; Dean Carignan; Richard Edgar; Nicolo Fusi; Nicholas King; Jonathan Larson; Yuanzhi Li; Weishung Liu; Renqian Luo; Scott Mayer McKinney; Robert Osazuwa Ness; Hoifung Poon; Tao Qin; Naoto Usuyama; Chris White; Eric Horvitz
Peut-on les modèles fondationnels généralistes surpasser l'ajustement spécialisé ? Étude de cas en médecine
Résumé

Les modèles de fondation généralistes tels que GPT-4 ont démontré des capacités surprenantes dans une grande variété de domaines et de tâches. Cependant, il existe une hypothèse répandue selon laquelle ils ne peuvent pas égaler les capacités spécialisées des modèles affinés. Par exemple, la plupart des explorations jusqu'à présent sur les bancs d'essai de compétences médicales ont utilisé un entraînement spécifique au domaine, comme en témoignent les efforts déployés pour BioGPT et Med-PaLM.Nous nous appuyons sur une étude précédente des capacités de GPT-4 sur des bancs d'essai médicaux sans entraînement spécial. Au lieu d'utiliser des incitations simples pour mettre en lumière les capacités intrinsèques du modèle, nous effectuons une exploration systématique de l'ingénierie des prompts. Nous constatons que l'innovation dans l'élaboration des prompts peut débloquer des capacités plus profondes et spécialisées, montrant que GPT-4 dépasse facilement les résultats antérieurs les plus performants pour les benchmarks médicaux. Les méthodes d'incitation que nous explorons sont polyvalentes et n'utilisent pas spécifiquement d'expertise du domaine, supprimant ainsi le besoin de contenu curatif par des experts.Notre conception expérimentale contrôle soigneusement le surapprentissage lors du processus d'ingénierie des prompts. Nous introduisons Medprompt, basé sur une combinaison de plusieurs stratégies d'incitation. Avec Medprompt, GPT-4 atteint des résultats de pointe sur chacun des neuf ensembles de données du benchmark MultiMedQA. La méthode surpasse les modèles spécialisés leaders tels que Med-PaLM 2 avec une marge significative et un nombre d'appels au modèle inférieur d'un ordre de grandeur. L'utilisation de Medprompt pour guider GPT-4 permet une réduction de 27 % du taux d'erreur sur le dataset MedQA par rapport aux meilleures méthodes actuelles obtenues avec des modèles spécialisés et dépasse pour la première fois un score de 90 %.Au-delà des problèmes médicaux, nous montrons la puissance de Medprompt pour se généraliser à d'autres domaines et fournissons des preuves de l'applicabilité large de cette approche grâce à l'étude de la stratégie sur des examens en génie électrique, apprentissage automatique (machine learning), philosophie, comptabilité, droit, infirmier (nursing) et psychologie clinique.

Peut-on les modèles fondationnels généralistes surpasser l'ajustement spécialisé ? Étude de cas en médecine | Articles de recherche récents | HyperAI