HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Baichuan-M2 : Augmenter les capacités médicales grâce à un système de vérification à grande échelle

Baichuan-M2 : Augmenter les capacités médicales grâce à un système de vérification à grande échelle

Résumé

Alors que les modèles de langage à grande échelle (LLM) progressent dans leurs capacités conversationnelles et de raisonnement, leur application concrète en santé devient un axe de recherche fondamental. Toutefois, un écart significatif existe entre les performances des LLM médicaux sur des benchmarks statiques tels que l’USMLE et leur utilité dans la prise de décision clinique réelle. Ce décalage s’explique par le fait que les examens traditionnels ne parviennent pas à capturer la nature dynamique et interactive des consultations médicales. Pour relever ce défi, nous introduisons un cadre novateur de vérification dynamique, qui dépasse les systèmes de vérification de réponses statiques, en établissant un système à grande échelle et à haute fidélité fondé sur l’apprentissage par renforcement interactif. Notre cadre repose sur deux composants clés : un simulateur de patient, qui génère des environnements cliniques réalistes à partir de dossiers médicaux dépersonnalisés, et un générateur de grilles d’évaluation clinique, qui produit dynamiquement des métriques d’évaluation multidimensionnelles. Sur cette base, nous développons Baichuan-M2, un modèle médical d’inférence augmentée de 32 milliards de paramètres, entraîné via une stratégie d’apprentissage par renforcement multi-étapes et une version améliorée de l’algorithme Group Relative Policy Optimization (GRPO). Évalué sur HealthBench, Baichuan-M2 dépasse tous les autres modèles open source ainsi que la plupart des modèles fermés les plus avancés, atteignant un score supérieur à 32 sur le benchmark difficile HealthBench Hard — une performance jusque-là atteinte uniquement par GPT-5. Nos résultats démontrent qu’un système de vérification dynamique robuste est essentiel pour aligner les capacités des LLM sur les applications cliniques concrètes, établissant ainsi un nouveau front de Pareto dans le compromis entre performance et nombre de paramètres pour le déploiement de l’intelligence artificielle en santé.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Baichuan-M2 : Augmenter les capacités médicales grâce à un système de vérification à grande échelle | Articles de recherche | HyperAI