2달 전

MEDITRON-70B: 대형 언어 모델의 의학 사전 학습 확장

Zeming Chen; Alejandro Hernández Cano; Angelika Romanou; Antoine Bonnet; Kyle Matoba; Francesco Salvi; Matteo Pagliardini; Simin Fan; Andreas Köpf; Amirkeivan Mohtashami; Alexandre Sallinen; Alireza Sakhaeirad; Vinitra Swamy; Igor Krawczuk; Deniz Bayazit; Axel Marmet; Syrielle Montariol; Mary-Anne Hartley; Martin Jaggi; Antoine Bosselut
MEDITRON-70B: 대형 언어 모델의 의학 사전 학습 확장
초록

대형 언어 모델(LLM)은 의학 지식에 대한 접근을 민주화할 수 있는 잠재력을 가지고 있습니다. 많은 노력이 LLM의 의학 지식과 추론 능력 향상에 기울여졌지만, 그 결과물인 모델들은 폐쇄 소스(예: PaLM, GPT-4)이거나 규모가 제한적(<= 13B 파라미터)인 경우가 많아, 이로 인해 능력이 제약받고 있습니다. 본 연구에서는 대규모 의학 LLM에 대한 접근성을 개선하기 위해 MEDITRON을 공개합니다. MEDITRON은 7B와 70B 파라미터를 가진 오픈소스 LLM들의 패키지로, Nvidia의 Megatron-LM 분산 트레이너를 활용하여 Llama-2를 의학 영역에 맞게 조정하였습니다. 또한 선별된 PubMed 논문, 초록 및 국제적으로 인정받는 의학 가이드라인을 포함하는 철저히 큐레이션된 의학 코퍼스에서 사전 학습을 확장하였습니다.네 가지 주요 의학 벤치마크를 사용한 평가 결과, MEDITRON은 작업 특异性 미세조정 전후로 여러 최신 기준 모델들보다 상당한 성능 향상을 보였습니다. 전체적으로 MEDITRON은 해당 파라미터 클래스에서 가장 우수한 공개 기준 모델보다 절대적인 성능 향상률 6%를 기록하였으며, Llama-2에서 미세조정한 가장 강력한 기준 모델보다도 3% 높았습니다. 폐쇄 소스 LLM들과 비교했을 때, MEDITRON-70B는 GPT-3.5와 Med-PaLM을 능가하며 GPT-4와는 5%, Med-PaLM-2와는 10%의 차이만 보였습니다. 우리는 더 강력한 의학 LLM 개발을 촉진하기 위해 의학 사전 학습 코퍼스를 큐레이션하는 코드와 MEDITRON 모델 가중치를 공개합니다.

MEDITRON-70B: 대형 언어 모델의 의학 사전 학습 확장 | 최신 연구 논문 | HyperAI초신경