HyperAI

의료 인공지능의 급속한 발전은 고품질 데이터 세트의 지원과 분리될 수 없습니다. 질병 진단부터 약물 개발, 개인 맞춤 의료에 이르기까지 데이터 세트는 의료 분야에서 머신 비전, 대형 모델 등의 적용을 촉진하는 데 없어서는 안 될 역할을 합니다.

의료 데이터 세트는 다양한 형태로 제공되며, 다양한 차원과 분야의 데이터 리소스를 포함합니다. 예를 들어, 질병 진단 분야에서 RJUA-QA와 같은 질의응답 데이터 세트는 복잡한 의학 지식의 자동화된 적용을 촉진합니다. 그리고 전통 중의학 분야에서는 신농 전통 중의학 데이터 세트가 전통 중의학 문헌, 임상 사례, 처방 데이터를 통합합니다.

이러한 목적을 위해 본 논문에서는 신농 중의학, 고대 중의학 서적, 의학적 추론, 의학 Q&A 등을 포함하는 의학 분야의 10개 데이터 세트를 구성하여 연구자들이 이러한 데이터 리소스의 분포와 특성을 빠르게 이해하고 특정 연구 문제에 응용하는 데 필요한 영감을 제공하는 것을 목표로 합니다.

더 많은 오픈 소스 데이터 세트를 보려면 클릭하세요.

https://go.hyper.ai/SjWDr

QR 코드를 스캔하고 "데이터 세트"에 표시하여 토론 그룹에 참여하세요↓

중국 의학 데이터 세트 요약

1. MedChatZH 중국어 의학 대화 명령 데이터 세트

예상 크기:3.9GB

다운로드 주소:https://go.hyper.ai/AZwFf

MedChatZH는 동중국과학기술대학교에서 공개한 중국 의학 대화 데이터셋입니다. 이 데이터셋은 중의학 고전에 대한 지속적인 사전 학습과 의료 교육 데이터에 대한 미세 조정을 통해 중의학 상담 대화(특히 중의학 시나리오)의 이해 및 생성 능력을 향상시키는 것을 목표로 합니다.

2. RJUA-QA 최초의 중국 의학 전문 분야 질문 답변 추론 데이터 세트

예상 크기:2.34MB

다운로드 주소:https://go.hyper.ai/rIwcK

이 데이터 세트는 상하이 교통대학 의과대학 부속 런지병원의 비뇨기과 전문가 팀과 협력하여 Ant Group Medical LLM(대규모 언어 모델) 팀이 만든 의료 비뇨기과를 위한 혁신적인 질의응답 추론 데이터 세트입니다. Q-context-A(질문-맥락-답변) 형식으로 제시되며, 사례 데이터는 전문 의사가 임상 경험을 바탕으로 작성하며 환자와 의사의 개인적 사생활을 침해하지 않습니다.

3. 중국 의학 대화 데이터

예상 크기:279.64MB

다운로드 주소:https://go.hyper.ai/lM5sd

이 데이터 세트는 중국 의학 질의응답 데이터 세트로, 6개의 다른 진료과 폴더로 구성되어 있습니다. 즉, 남성과(질의응답 쌍 94,596개), 내과(질의응답 쌍 220,606개), 산부인과(질의응답 쌍 183,751개), 종양과(질의응답 쌍 75,553개), 소아과(질의응답 쌍 101,602개), 외과(질의응답 쌍 115,991개)로 총 792,099개의 데이터 포인트가 있습니다. 각 폴더에 csv 파일이 있습니다.

4. AI 의료 챗봇 의료 대화 데이터 세트

예상 크기:118.35MB

다운로드 주소:https://go.hyper.ai/MCH57

이는 의료 챗봇을 실행하기 위해 설계된 실험적 데이터 세트로, 환자와 의사 간의 대화 256,916건을 담고 있습니다.

5. ShenNong TCM 데이터 세트 신농 전통 중의학 데이터 세트

예상 크기:28.98MB

다운로드 주소:https://go.hyper.ai/iJsGu

이 데이터 세트는 전통 중의학 분야의 대규모 언어 모델 훈련 및 평가를 위해 특별히 설계되었습니다. 여기에는 개체 중심의 자기 학습 방법을 통해 생성된 110,000개 이상의 교육 데이터가 포함되어 있습니다. 이는 전통 중의학 분야의 핵심 실체와 다양한 의도 시나리오에 초점을 맞춥니다. 이는 전통 중의학과 관련된 질문에 답하는 모델의 능력을 향상시킬 수 있을 뿐만 아니라, 전통 중의학 진단을 지원하고 개인화된 의료 조언을 제공할 수도 있습니다.

6. TCM 고대 서적 전통 중국 의학 고대 서적 데이터 세트

예상 크기:80.49MB

다운로드 주소:https://go.hyper.ai/pyHEs

이 데이터 세트에는 진나라 이전부터 청나라 말기, 중화민국까지의 고전 의학을 포함하여 약 700개의 고대 중국 의학 문헌이 포함되어 있습니다. 이러한 문서에는 의학 이론, 처방, 약리학 등이 포함되어 있을 뿐만 아니라 풍부한 임상 사례와 의학 백과사전 지식도 담겨 있습니다.

7. 전통 중의학 데이터 세트 SFT 전통 중의학 진단 데이터 세트

예상 크기:341.69MB

다운로드 주소:https://go.hyper.ai/cIHaP

이 데이터 세트는 전통 중의학 분야에 초점을 맞춘 고품질 데이터 세트로, 전통 중의학의 다양한 분야의 임상 사례, 유명 서적, 의학 백과사전, 용어집 등 약 1GB의 고품질 콘텐츠를 포함하고 있습니다. 데이터 세트는 주로 네트워크 외부 소스의 내부 데이터로 구성됩니다. 99%는 간체 중국어로 작성되었으며 품질이 우수하고 정보 밀도가 높아 사전 훈련이나 지속적인 사전 훈련 목적으로 적합합니다.

8. 중국 의학 대화 데이터 세트

예상 크기:737.32MB

다운로드 주소:https://go.hyper.ai/cCrcT

이 중국 의학 데이터 세트는 의학 분야에서 전문적인 대화와 권장 사항을 제공할 수 있는 언어 모델을 개발하고 훈련하기 위한 포괄적인 리소스입니다. 백과사전 지식, 교과서 텍스트, 실제 의사-환자 대화, 평가 데이터 등 다양한 유형의 데이터를 결합하여 모델의 정확성과 실용성을 향상시킵니다.

9. 의료 o1 추론 SFT 의료 추론 데이터 세트

다운로드 주소:https://go.hyper.ai/BAVNR

이 데이터 세트는 홍콩 중국 대학과 선전 빅데이터 연구소에서 2024년에 공개했습니다. 이 데이터 세트는 복잡한 의학적 추론 작업에서 성능을 개선하기 위해 HuatuoGPT-o1 의료 대규모 언어 모델을 미세 조정하도록 특별히 설계되었습니다.

10. MMedBench 다국어 의료 능력 테스트 벤치마크 데이터 세트

예상 크기:20.69MB

다운로드 주소:https://go.hyper.ai/ux6FF

본 데이터 세트는 상하이 교통대학교 인공지능학원 스마트 헬스케어팀이 2024년에 개발한 포괄적인 다국어 의료 능력 시험 벤치마크 데이터 세트입니다. 의료 분야에서 다국어 모델 개발을 평가하는 것을 목표로 하며, 6개 언어와 21개 의료 하위 분야를 포괄합니다.

11 , MMedC 대규모 다국어 의학 코퍼스

예상 크기:31.05GB

다운로드 주소:https://go.hyper.ai/K8RcQ

이 데이터 세트는 상하이 교통대학교 인공지능학원 스마트 헬스케어팀이 2024년에 구축한 다국어 의료 코퍼스입니다. 영어, 중국어, 일본어, 프랑스어, 러시아어, 스페인어 등 6개 주요 언어를 포함하는 약 255억 개의 토큰이 포함되어 있습니다.

위는 HyperAI가 수집한 중국 의학 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기고문을 제출하여 알려주세요!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함

* 200개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai

Command Palette

10가지 주요 중국 의학 데이터세트 요약: 신농중의학, 고대 중국 의학 서적, 의학적 추론, 의학적 질문과 답변 포함...

중국 의학 데이터 세트 요약

HyperAI 소개