HyperAI超神经

* 该数据集支持在线使用，点击此处跳转。

MMedBench 是一个全面多语言医学能力测试基准数据集，由上海交通大学人工智能学院智慧医疗团队于 2024 年开发，论文成果为「Towards building multilingual language model for medicine」。它旨在评估医学领域多语言模型的发展，涵盖了 6 种语言和 21 种医学子领域。 MMedBench 的所有问题直接来源于各国的医学考试题库，确保了评测的准确性和可靠性，避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。

该评测基准包含 2 个主要的评测维度：选择准确率和解释合理性。在评测过程中，模型不仅需要选择正确的答案，还必须提供合理的解释，从而进一步测试模型理解和解释复杂医疗信息的能力。 MMedBench 的数据统计显示了训练集和测试集的基础数值统计信息，以及样本在不同主题上的分布情况。

研究团队对主流医疗语言模型在 MMedBench 基准上进行了评估，包括 Zero-shot 、 PEFT Finetuning 和 Full model Finetuning 这 3 种测试策略。测试结果显示，所提出的模型在选择准确率和解释合理性这两个关键维度上均超越了现有的同级别开源模型，并可与 GPT-4 媲美。此外，研究团队还进行了人工打分评估，在人工评估结果中，提出的模型最受到人类用户的偏好。

MMedBench 的推出，不仅推动了医疗领域的多语言大模型研究，也为临床实践提供了新的工具，特别是在解决语言障碍和医疗资源全球化方面展现了巨大潜力。所有数据和代码均已开源，进一步促进了全球研究社区的合作和技术共享。

MMedBench 多语言医学能力测试基准数据集

* 该数据集支持在线使用，点击此处跳转。