HyperAI

ReasonMed: Ein 370K Mehragenten-Generierter Datensatz zur Förderung der Medizinischen Schlussfolgerung

Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
Veröffentlichungsdatum: 6/15/2025
ReasonMed: Ein 370K Mehragenten-Generierter Datensatz zur Förderung der Medizinischen Schlussfolgerung
Abstract

Obwohl grandesprachliche Modelle (LLMs), die auf Schlussfolgerungen basieren, in Mathematik und Programmierung ausgezeichnet haben, sind ihre Fähigkeiten bei wissensintensiven medizinischen Fragebeantwortung noch wenig erforscht. Um dies zu beheben, stellen wir ReasonMed vor, das größte Dataset für medizinische Schlussfolgerungen, das 370.000 hochwertige Beispiele umfasst, die aus 1,7 Millionen anfänglichen Schlussfolgerungspfaden von verschiedenen LLMs destilliert wurden. ReasonMed wird durch einen mehragentigen Verifizierungs- und Verfeinerungsprozess erstellt, bei dem wir einen Fehlerverfeinerer (Error Refiner) entwickeln, um die Schlussfolgerungspfade durch Identifizierung und Korrektur fehleranfälliger Schritte zu verbessern, die von einem Verifizierer markiert wurden. Unter Nutzung von ReasonMed untersuchen wir systematisch beste Praktiken für das Training von medizinischen Schlussfolgerungsmodellen und stellen fest, dass die Kombination detaillierter Gedankenkette-Schlussfolgerung (Chain-of-Thought CoT) mit prägnanten Antwortzusammenfassungen die effektivste Feinjustierungsstrategie darstellt. Auf Basis dieser Strategie trainieren wir ReasonMed-7B, das ein neues Maßstab für Modelle unter 10 Milliarden Parameter setzt. Es übertrifft den bisherigen Bestwert um 4,17 % und übertreffen sogar LLaMA3.1-70B in der PubMedQA-Aufgabe um 4,60 %.