HyperAI초신경

MMedBench 다국어 의료 능력 테스트 벤치마크 데이터 세트

날짜

9달 전

크기

20.69 MB

기관

상하이 교통대학교

발행 주소

github.com

라이선스

CC BY-NC-SA 3.0

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

MMedBench는 상하이 교통대학교 인공지능학원 스마트 헬스케어팀이 2024년에 개발한 포괄적인 다국어 의료 능력 시험 벤치마크 데이터 세트입니다.의학을 위한 다국어 언어 모델 구축을 향해MMedBench는 6개 언어와 21개 의학 하위 분야를 포괄하는 의학 분야의 다국어 모델 개발을 평가하는 것을 목표로 합니다. MMedBench의 모든 문제는 여러 국가의 의학 검진 문제 은행에서 직접 추출되어 평가의 정확성과 신뢰성을 보장하고, 국가별 의료 진료 지침 차이로 인한 진단 이해 편향을 방지합니다.

평가 벤치마크에는 선택 정확도와 설명 합리성이라는 두 가지 주요 평가 차원이 포함됩니다. 평가 과정에서 모델은 정답을 선택해야 할 뿐만 아니라 합리적인 설명도 제공해야 하며, 이를 통해 복잡한 의료 정보를 이해하고 해석하는 모델의 능력을 더욱 테스트해야 합니다. MMedBench의 데이터 통계는 훈련 세트와 테스트 세트의 기본적인 수치 통계를 보여주고, 다양한 주제에 대한 샘플의 분포도 보여줍니다.

연구팀은 MMedBench 벤치마크에서 주요 의학 언어 모델을 평가했는데, 여기에는 제로샷, PEFT 미세조정, 전체 모델 미세조정의 세 가지 테스트 전략이 포함되었습니다. 테스트 결과에 따르면 제안된 모델은 선택 정확도와 설명 합리성이라는 두 가지 핵심 측면에서 동일 수준의 기존 오픈 소스 모델을 능가하며 GPT-4와 유사합니다. 또한 연구팀은 수동 채점 평가도 실시했는데, 그 결과 제안된 모델이 인간 사용자에게 가장 선호되었습니다.

MMedBench의 출시는 의료 분야에서 다국어 대규모 모델 연구를 촉진할 뿐만 아니라 임상 실무를 위한 새로운 도구를 제공하며, 특히 언어 장벽을 해결하고 의료 자원의 세계화에 큰 잠재력을 보여줍니다. 모든 데이터와 코드는 오픈 소스로 공개되어 글로벌 연구 커뮤니티 간의 협업과 기술 공유가 더욱 촉진되었습니다.

MMedBench 데이터 통계. 그림 a는 MMedBench 훈련 세트와 테스트 세트의 기본적인 수치 통계를 나타냅니다. 그림 b는 다양한 주제에 대한 MMedBench 샘플의 분포를 보여줍니다.

MMedBench.torrent
시딩 1다운로드 중 1완료됨 98총 다운로드 횟수 221
  • MMedBench/
    • README.md
      2.67 KB
    • README.txt
      5.33 KB
      • data/
        • MMedBench.zip
          20.69 MB