HyperAI초신경

ReasonMed: 의료 추론을 발전시키기 위한 370,000개 다중 에이전트 생성 데이터셋

Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
발행일: 6/15/2025
ReasonMed: 의료 추론을 발전시키기 위한 370,000개 다중 에이전트 생성 데이터셋
초록

논리 기반 대형 언어 모델(LLM)들은 수학과 프로그래밍에서 뛰어난 성능을 보였지만, 지식 집약적인 의료 질문 답변 분야에서는 여전히 연구가 부족한 상태입니다. 이를 해결하기 위해, 우리는 ReasonMed라는 가장 큰 의료 논리 데이터셋을 소개합니다. 이 데이터셋은 다양한 LLM들이 생성한 170만 개의 초기 논리 경로 중에서 선별된 37만 개의 고품질 예제로 구성되어 있습니다. ReasonMed는 다중 에이전트 검증 및 정제 과정을 통해 구축되었습니다. 여기서 우리는 검증자가 표시한 오류 발생 가능성이 높은 단계를 식별하고 수정하여 논리 경로를 향상시키기 위한 오류 정제기(Error Refiner)를 설계하였습니다. ReasonMed를 활용하여, 우리는 의료 논리 모델 훈련에 대한 최선의 방법론을 체계적으로 조사하였으며, 상세한 사고 과정(Chain-of-Thought, CoT) 논리를 간결한 답변 요약과 결합하는 것이 가장 효과적인 미세 조정 전략임을 발견했습니다. 이 전략에 기반하여, 우리는 ReasonMed-7B를 훈련시켰습니다. 이 모델은 10억 파라미터 미만의 모델들 중 새로운 벤치마크를 설정하며, 이전 최고 성능 모델보다 4.17% 우수하며 PubMedQA에서 LLaMA3.1-70B보다도 4.60% 더 좋은 성능을 보였습니다.