오픈소스 1,760억 매개변수 일반 의학 언어 모델! BUPT/PKU/중국 싼샤대학은 전문의사와 비슷한 추론 능력을 가진 MedFound를 제안했습니다.

옛말에 "인간은 실수를 저지른다"고 했지만, 의학 분야에서는 잘못된 진단과 같은 실수가 치명적인 결과를 초래할 수 있습니다. 한편, 환자에게 있어서 최악의 시나리오는 오경보이며, 최악의 시나리오는 질병 치료가 지연되는 것입니다. 어느 경우든 환자는 정신적, 재산적, 심지어 생명까지 피해를 입게 됩니다. 반면, 의사의 경우 잘못된 판단은 생명을 구하는 의사라는 이미지를 손상시킬 수 있으며, 심지어 전체 의료 시스템의 신뢰도에 영향을 미칠 수도 있습니다. 하지만 예상과 달리 오진은 여전히 국내외에서 빈번하게 발생하는 사건입니다.
학술지 '임상 오진과 오치료'의 전 편집장이자 의학 논문 '오진'의 저자 중 한 명인 천샤오훙은 인터뷰에서 국내외 문헌에서 언급된 표본 크기의 오진율이 일반적으로 20%에서 40% 정도라고 언급했습니다. 또한 그의 저서 『오진』에는 관련 통계가 있는데, 예를 들어 1973년부터 1980년까지 여러 대표적인 국내 의학 저널에 보고된 임상병리학 논의 자료 200건 중 오진율이 %가 48건으로 높았다고 언급하고 있습니다. 잘못된 진단은 인간 의학의 발전을 가로막는 가장 큰 걸림돌 중 하나가 되었다고 할 수 있습니다.
오진 문제를 해결하기 위해 고대에는 《중서합의록》, 《의과오》, 《의학교정》 등의 의학 서적들이 모두 오진의 교훈을 의학 기록에 담아 후세에 경고하려고 애썼습니다. 현대에는 B-초음파, CT, MRI와 같은 현대 의학 기술의 도움으로 임상 진단 수단이 점점 더 풍부하고 정교해졌습니다. 그러나 의학은 실용 과학이자 탐구 학문이기 때문에 결코 오진을 완전히 피할 수는 없습니다. 따라서 오진율을 더욱 낮추고 질병 진단의 정확성과 접근성을 개선해야만 의학이 더욱 발전할 수 있는 길을 열 수 있습니다.
과학을 위한 AI를 새로운 패러다임으로 삼아 위의 문제를 해결하기 위한 새로운 아이디어를 제공합니다. 며칠 전,베이징우전대학의 왕광위 교수, 베이징대학 제3병원의 송춘리 교수, 중국 싼샤대학의 양젠 교수로 구성된 의학공학 학제간 팀은 매개변수 수가 가장 많은 생물의학 언어 모델인 MedFound(176B)를 도입하고 검증했습니다.또한, 우리는 전문가에 가까운 지식과 추론 능력을 갖추고 다양한 의료 상황에서 효율적이고 정확한 진단 지원을 제공할 수 있는, 일반 의료 진단을 위한 대규모 언어 모델인 MedFound-DX-PA를 추가로 개발했습니다.
관련 결과는 "질병 진단 지원을 위한 일반 의학 언어 모델"이라는 제목으로 Nature Medicine에 게재되었습니다.

서류 주소:
https://www.nature.com/articles/s41591-024-03416-6
공식 계정을 팔로우하고 "MedFound"라고 답글을 달면 전체 PDF를 받을 수 있습니다.
오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
MedFound의 혁신은 무엇인가요?
가장 많은 매개변수를 포함하는 가장 큰 오픈소스 생물의학 언어 모델
연구팀은 실제 임상 환경에 맞게 특별히 설계되고 공개적으로 이용 가능한 LLM이 부족한 것이 LLM이 생물의학 응용 분야에서 아직 초기 단계에 있는 주요 이유라고 밝혔습니다. MedFound는 매개변수 규모가 1,760억인 일반 의학 대규모 언어 모델인 일반 도메인 대규모 언어 모델 BLOOM-176B를 기반으로 사전 학습되었습니다.
연구팀은 모델이 포괄적인 일반 의학 지식을 습득할 수 있도록 하기 위해 방대한 의학 지식과 임상 실무를 통합한 의학 코퍼스 데이터 세트인 MedCorpus를 특별히 구축했습니다. 여기에는 MedText, PubMed Central Case Report(PMC-CR), MIMIC-III-Note, MedDX-Note를 포함한 4개 데이터세트의 총 63억 개의 텍스트 토큰이 포함됩니다. 이 데이터 세트는 중국어와 영어 의학 문헌, 전문 서적, 870만 건의 실제 전자 의무 기록을 포함하고 있으며, 이는 이 모델이 다양한 학문 분야의 진단에 적용되기 위한 중요한 기반이 됩니다.
연구팀에 따르면 MedFound는 이제 오픈 소스로 전 세계의 연구자, 임상의, 의료 기관에 기본적인 대규모 모델 서비스를 제공할 수 있다는 점도 언급할 가치가 있습니다.
프로젝트 주소:
https://github.com/medfound/medfound?tab=readme-ov-file
혁신적인 임상 진단 추론 능력으로 '살아있는 의사'가 되다
또한, 기계와 인간 사이의 중요한 차이점은 인간 의사는 자신의 경험과 지식을 바탕으로 환자의 실제 상태에 대해 합리적인 추론을 내릴 수 있고, 이를 통해 차별화된 치료를 제공할 수 있다는 것입니다. 연구팀은 현재 일부 연구는 단순히 의학적 Q&A나 대화를 위한 LLM에 임상 지식을 통합할 뿐, 임상 진단 추론 능력을 반영하지 않는다고 밝혔습니다.
예를 들어, Sainan Zhang과 Jisung Song은 Nature에 연구 결과를 발표했는데, 이 연구에서 그들은 GPT-2의 전이 학습과 미세 조정을 기반으로 Chat Ella라는 대화형 인터페이스를 개발했습니다. 이 시스템은 사용자가 설명한 증상을 토대로 만성 질환을 정확하게 예측할 수 있습니다. 그러나 논문의 마지막 부분에서 연구자들은 연구의 단점도 언급하면서 추론 과정에서 결과에 한계가 있다는 점을 지적했습니다. 예를 들어 추론 과정을 설명할 수 없다는 점 등이 있습니다. 논문의 제목은 “대규모 언어 모델을 기반으로 한 만성 질환의 보조 진단을 위한 챗봇 기반 질의응답 시스템”입니다.
서류 주소:
https://www.nature.com/articles/s41598-024-67429-4
따라서 엄격한 질병 진단을 달성하기 위해서는 대규모 모델이 광범위한 학제적 의학 지식을 갖추는 것만으로는 충분하지 않으며, 복잡한 추론을 수행할 수 있어야 합니다.연구팀은 MedFound 모델을 기반으로 2단계 학습 최적화를 통해 전문가에 가까운 지식과 추론 능력을 갖춘 일반 의료 진단을 위한 대규모 언어 모델인 MedFound-DX를 추가로 개발했습니다.다음 그림과 같이:

구체적으로, 연구팀은 1단계에서 자기 주도적 전략에 기반한 사고의 사슬(CoT) 방법을 사용하여 대규모 모델이 의료 전문가처럼 자동으로 진단 근거와 추론 과정을 생성할 수 있도록 했습니다. 그러나 생성적 LLM은 "환각"을 유발하거나 거짓 사실을 조작할 수 있으며, 이러한 진단이 채택되면 그 결과는 재앙적일 수 있습니다.
따라서 연구팀은 2단계에서 LLM을 전문 분야의 지식 체계와 임상 진단 선호도에 맞춰 통합 선호도 정렬 프레임워크도 도입하여, 이 모델이 진단을 내릴 때 과학적이고 합리적일 뿐만 아니라 임상 실무에서 의료 전문가의 논리와 가치와도 일치하도록 했습니다. 이 프레임워크는 "진단적 계층 선호도"와 "도움성 선호도"를 통합하는데, 둘 다 강화 학습이 필요하지 않은 간단한 알고리즘인 직접 선호도 최적화(DPO) 알고리즘을 사용합니다. 한편으로는 질병 식별의 정확도를 높이기 위해 모델을 안내할 수 있고, 다른 한편으로는 모델 추론의 효과와 신뢰성을 개선하고 오해의 소지가 있거나 잘못된 정보의 위험을 줄일 수도 있습니다.
이 부분의 미세 조정 및 정렬을 위해 연구팀은 MedDX-FT라는 데이터 세트를 특별히 구축했다는 점도 언급할 가치가 있습니다. 이 데이터 세트에는 의사가 실제 의료 기록을 기반으로 직접 작성한 추론 과정의 데모가 포함되어 있어 훈련 및 미세 조정에 활용할 수 있습니다. 데이터 세트는 수동 데모를 기반으로 한 시드 세트와 109,364개의 EHR 메모로 구성되어 있습니다.
놀라운 시연 결과는 잠재적인 응용 가능성을 보여줍니다.
평가 단계에서 연구팀은 MedDX-Test, MedDX-OOD, MedDX-Rare의 세 가지 임상 데이터 세트를 포함하는 MedDX-Bench 데이터 세트도 구축했습니다.
* MedDX-Test 데이터 세트는 다양한 분야에서 MedFound-DX-PA의 진단 성능을 평가하는 데 사용되며, 훈련 데이터 세트와 동일한 분포를 가진 11,662개의 의료 기록을 포함합니다.
* MedDX-OOD와 MedDX-Rare는 외부 검증 세트로, 전자는 흔한 질병에 대한 23,917건의 기록을 포함하고 있으며, 후자에는 긴꼬리 분포를 갖는 2,105건의 희귀 질병에 대한 20,257건의 기록이 포함되어 있습니다.
평가 실험은 주로 세 단계로 구성됩니다. 즉, 분포 내(ID) 평가, 분포 외(OOD) 평가, 롱테일 질병 분포 평가입니다. 비교 대상에는 MEDITRON-70B, Clinical Camel-70B, Llama 3-70B, GPT-4o와 같은 선도적인 오픈 소스 및 폐쇄 소스 LLM이 포함됩니다.
결과는 이 LLM의 성과가 다른 주요 LLM보다 더 우수하다는 것을 보여줍니다.예를 들어, 흔한 질병의 진단 성능에서 MedFound-DX-PA의 평균 Top-3 정확도는 84.2%(ID 설정 기준)인 반면, GPT-4o의 진단 정확도는 62%에 불과합니다. 희귀질환 진단 성능에서 MedFound-DX-PA의 8개 전문분야 Top-3 정확도 평균은 80.7%이고, GPT-4o는 평균 59.1%로 2위를 차지했습니다.
MedFound-DX-PA와 내분비과 의사 및 폐과 의사를 비교했을 때 진단 정확도는 각각 74.7%와 72.6%로, 경력이 짧은 의사와 중간 정도인 의사보다 훨씬 높았고 경력이 긴 의사와 비슷한 수준이었습니다. 보조 진단 측면에서는 이 두 부서의 의사가 각각 11.9%와 4.4%의 진단 정확도를 높이는 데 도움이 될 수 있습니다. 아래 그림은 직관적인 모델 진단 사례입니다.
아래 그림에서 볼 수 있듯이, 의사의 최초 진단은 급성 기관지염이었습니다. MedFound 모델은 환자의 재발성 기관지염 병력을 강조했습니다. 모델의 신속한 설명에 따라 의사는 진단을 만성 기관지염의 급성 악화로 수정했습니다.

아래 그림에서 볼 수 있듯이, 의사는 처음에 환자를 임상 전 갑상선 기능 저하증으로 진단했습니다. MedFound 모델은 잠재적으로 자가면역성 갑상선 질환의 가능성을 시사했고, 의사는 결과를 자가면역성 갑상선염으로 수정했습니다.

MedFound는 진단 효율성과 정확성을 향상시킬 수 있는 잠재력을 가지고 있을 뿐만 아니라, 임상 종사자를 위한 진단 보조 도구가 될 수 있는 잠재력도 가지고 있다는 것을 알 수 있습니다.이는 지능형 임상 진단 및 치료, 개인맞춤형 의학의 미래 개발을 강력하게 뒷받침합니다.
AI4S는 계속해서 발전하고 있으며 구현의 시대가 도래했습니다.
왕광위 팀은 계속 전진합니다
이러한 협력적 노력 속에서 각 팀은 최선을 다했고, 전문지식을 활용하여 이러한 성과에 기여했습니다. 베이징우편대학의 왕광위 교수가 이 연구의 책임저자 중 한 명이라는 점은 언급할 가치가 있습니다.
사실, 왕광위 교수팀이 AI와 생물의학을 통합한 것은 이번이 처음이 아니다.왕광위는 90년대 이후 최초로 과학탐구상을 수상한 인물로, 오랫동안 유명세를 떨치며 국제적으로 선도적인 학술적 업적을 잇따라 발표했습니다.그의 연구는 Cell, Nature Medicine, Nature Biomedical Engineering 등 세계적인 학술지에 게재되었습니다.

예를 들어, 2020년에 왕광위 교수는 첫 번째 책임저자로서 최고 국제 학술지인 Cell에 "컴퓨터 단층촬영을 이용한 COVID-19 폐렴의 정확한 진단 및 예후를 위한 임상적으로 적용 가능한 AI 시스템"이라는 제목의 연구 결과를 발표했습니다. 이 연구는 당시 맹위를 떨치던 COVID-19 폐렴에 초점을 맞추고 총 53만 개가 넘는 CT 이미지를 사용하여 병변 분할을 기반으로 하는 AI 진단 모델을 구축했으며, 그 진단 정확도는 최대 92.49%입니다.
서류 주소:
https://www.cell.com/pb-assets/products/coronavirus/CELL_CELL-D-20-00656.pdf

2023년, 왕광위 연구팀은 다시 한번 Nature Medicine에 두 편의 연구 논문을 발표했습니다. "SARS-CoV-2 감염성 및 변이 진화 예측을 위한 딥러닝 기반 단백질-단백질 상호작용 분석"이라는 제목의 한 논문에서는 UniBild라는 인공지능 프레임워크를 제안했는데, 이는 SARS-CoV-2 스파이크 단백질 변이가 인간에게 미치는 영향을 효과적이고 확장 가능하게 예측할 수 있습니다.
서류 주소:
https://www.nature.com/articles/s41591-023-02483-5

"강화 학습을 통한 2형 당뇨병의 최적화된 혈당 조절: 개념 증명 시험"이라는 제목의 또 다른 논문에서는 환자 모델(개별 혈당 상태 추적)과 장기 치료의 다단계 계획에 대한 정책 모델이 포함된 모델 기반 강화 학습 프레임워크 RL-DITR을 제안합니다. 이는 의사와 환자가 역동적이고 유연한 인슐린 치료 계획을 세우는 데 도움이 될 수 있습니다.
서류 주소:
https://www.nature.com/articles/s41591-023-02552-9
왕광위는 "이에 대한 기대가 큽니다. 저는 더욱 강력한 AI 기술을 개발하여 갑작스러운 전염병이나 암 정복과 같은 여러 중요한 생물의학적 문제를 해결하는 데 활용하고 싶습니다."라고 말했습니다.
AI와 바이오의학의 융합이 가속화되고 있습니다.
사실, AI와 생물의학의 통합은 오랫동안 주요 연구소의 주요 관심사였습니다. 의료 분야의 특수성으로 인해 AI가 이 분야에서 역할을 할 수 있는 기회가 더 많고, 더 많은 팀이 이 분야를 더욱 심도 있게 연구하고자 합니다.
예를 들어, 2024년에는 홍콩 중국 대학의 한 팀도 LLM을 기반으로 한 다회 진료 가상 의사 시스템인 DrHouse를 개발했습니다. 이 시스템은 스마트 기기의 도움으로 진단의 정확도와 신뢰도를 높일 수 있으며, 동시에 지속적으로 업데이트되는 의학 지식 기반과 고급 진단 알고리즘을 통해 매우 긴 수명을 가지고 있으며 지능적이고 신뢰할 수 있는 의료 평가를 제공합니다. 관련 논문의 제목은 "DrHouse: 센서 데이터와 전문가 지식의 결과를 활용하여 LLM 기반 진단 추론 시스템"입니다.
서류 주소:
https://arxiv.org/abs/2405.12541
또한 상하이 교통대학의 왕얀펑(Wang Yanfeng)과 셰웨이디(Xie Weidi) 연구팀은 2024년에 관련 결과를 발표했습니다. 이 연구에 따르면, 연구팀은 약 255억 개의 토큰을 포함하고 6개 주요 언어를 다루는 다국어 의학 코퍼스인 MMedC를 구축했다고 합니다. 동시에 다국어 의료 객관식 질문 벤치마크인 MMedBench도 제안했습니다. 연구팀의 최종 모델인 MMed-Llama 3은 매개변수가 80억 개에 불과하지만 MMedBench와 English 벤치마크에서는 GPT-4와 비슷한 성능을 보였습니다.
*자세한 보고서는 여기를 클릭하세요: 의료 분야 벤치마크 테스트가 Llama 3를 넘어 GPT-4에 접근했습니다. 상하이 교통대학교 팀, 6개 언어 지원하는 다국어 의료 모델 출시
AI와 바이오의학의 융합에 대한 폭풍이 더욱 거세지고 있는 것을 알 수 있습니다. 강력한 컴퓨팅 성능, 새로운 알고리즘, 그리고 방대한 데이터를 보다 쉽게 흡수할 수 있는 능력을 갖춘 AI는 전통적인 과학 연구를 보다 효율적이고 지능적으로 만들고 있습니다. 더욱 흥미로운 점은 이렇게 점진적으로 결과가 발전함에 따라 결국에는 애플리케이션이 더 빨리 출시될 것이라는 점입니다. 구현이 최우선인 시대가 조용히 도래한 것 같습니다.
참고문헌:
1.https://mp.weixin.qq.com/s/9mhp6luTzQeNhqpEKw9CWQ
2.https://mp.weixin.qq.com/s/WlamJ7N9YKrOJljvEvE9cA
3.https://mp.weixin.qq.com/s/r-S9qkVU645K-ZdaLGYhBA
4.https://mp.weixin.qq.com/s/BfByFCWC9VN6iABnPq1iDw
