Command Palette

Search for a command to run...

2달 전

백촨-M2: 대규모 검증 시스템을 통한 의료 능력의 확장

백촨-M2: 대규모 검증 시스템을 통한 의료 능력의 확장

초록

대규모 언어모델(LLM)이 대화 및 추론 능력에서 지속적으로 발전함에 따라, 의료 분야에서의 실용적 응용이 중요한 연구 주제로 부상하고 있다. 그러나 USMLE와 같은 정적 벤치마크에서의 의료용 LLM 성능과 실제 임상 의사결정에서의 활용성 사이에는 뚜렷한 격차가 존재한다. 이 격차는 기존의 시험 방식이 의료 상담의 동적이고 상호작용적인 특성을 반영하지 못하기 때문이다. 이러한 문제를 해결하기 위해, 우리는 정적 답변 검증 방식을 넘어서는 새로운 동적 검증 프레임워크를 제안한다. 이 프레임워크는 대규모이며 고정밀도의 상호작용 강화학습 시스템을 구축한다. 본 프레임워크는 두 가지 핵심 구성 요소로 구성된다. 첫째, 익명화된 의료 기록을 활용해 현실적인 임상 환경을 생성하는 환자 시뮬레이터(Patient Simulator)이며, 둘째, 다차원 평가 지표를 동적으로 생성하는 임상 평가 기준 생성기(Clinical Rubrics Generator)이다. 이러한 기반 위에서, 개선된 그룹 상대 정책 최적화(GRPO) 알고리즘을 사용한 다단계 강화학습 전략을 통해 훈련된 320억 파라미터의 의료 증강 추론 모델 Baichuan-M2를 개발하였다. HealthBench 평가에서 Baichuan-M2는 모든 오픈소스 모델과 대부분의 최신 폐쇄소스 모델을 능가하며, 어려운 HealthBench Hard 벤치마크에서 32 이상의 점수를 기록했다. 이는 이전까지 GPT-5만이 달성했던 수준이다. 본 연구는 LLM의 능력이 실제 임상 응용과 일치하기 위해서는 견고한 동적 검증 시스템이 필수적임을 입증하며, 의료 AI의 구현에서 성능과 파라미터 수의 트레이드오프 관계에서 새로운 페어토 최적 경계(Pareto front)를 설정하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
백촨-M2: 대규모 검증 시스템을 통한 의료 능력의 확장 | 연구 논문 | HyperAI초신경