Command Palette
Search for a command to run...
Baichuan-M2: Skalierung medizinischer Fähigkeiten mit großem Verifizierungssystem

Abstract
Mit der fortschreitenden Entwicklung großer Sprachmodelle (Large Language Models, LLMs) in Bezug auf Gesprächsfähigkeit und Schlussfolgerungskapazität ist ihre praktische Anwendung im Gesundheitswesen zu einem zentralen Forschungsfokus geworden. Doch besteht eine erhebliche Lücke zwischen der Leistung medizinischer LLMs auf statischen Benchmark-Datenbanken wie der USMLE und ihrer Relevanz für die tatsächliche klinische Entscheidungsfindung im Alltag. Diese Diskrepanz entsteht daraus, dass herkömmliche Prüfungen die dynamische, interaktive Natur medizinischer Konsultationen nicht erfassen können. Um dieser Herausforderung zu begegnen, stellen wir einen neuartigen dynamischen Verifizierungsrahmen vor, der über herkömmliche statische Antwortverifizierer hinausgeht und ein großskaliges, hochfideses interaktives Reinforcement-Learning-System etabliert. Unser Rahmenwerk besteht aus zwei zentralen Komponenten: einem Patientensimulator, der realistische klinische Umgebungen mithilfe anonymisierter medizinischer Dokumente erzeugt, und einem klinischen Bewertungs-Rubrik-Generator, der dynamisch mehrdimensionale Bewertungskriterien erzeugt. Auf dieser Grundlage entwickeln wir Baichuan-M2, ein medizinisch erweitertes Schlussfolgerungsmodell mit 32 Milliarden Parametern, das durch eine mehrstufige Reinforcement-Learning-Strategie mit einem verbesserten Algorithmus für die Gruppen-relative Policy-Optimierung (GRPO) trainiert wurde. Auf dem Benchmark HealthBench erreicht Baichuan-M2 sowohl alle anderen Open-Source-Modelle als auch die meisten fortschrittlichen Closed-Source-Modelle, wobei es eine Punktzahl über 32 auf dem anspruchsvollen HealthBench Hard-Benchmark erzielt – ein Wert, der bisher nur von GPT-5 übertroffen wurde. Unsere Arbeit zeigt, dass ein robustes dynamisches Verifizierungssystem entscheidend ist, um die Fähigkeiten von LLMs mit praktischen klinischen Anwendungen in Einklang zu bringen, und etabliert eine neue Pareto-Optimallösung im Leistungs-Parameter-Trade-off für die Implementierung medizinischer KI.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.