HyperAI超神经
Back to Headlines

新工具DataSAIL自动区分训练和测试数据,提升AI模型评估准确性

4 days ago

一项新工具“DataSAIL”已经开发成功,可以更准确地评估人工智能(AI)模型的性能。这一工具由德国埃尔兰根-纽伦堡大学(FAU)生物信息学系和萨尔州赫姆霍兹药物研究所(HIPS)的研究人员共同开发。DataSAIL自动将训练数据和测试数据分开,使两者之间尽可能不同,从而有效检测AI模型在处理未知数据时的表现。 传统的数据分割算法通常无法实现这种优化,因此许多AI模型的性能被高估。为了解决这一问题,研究人员开发了DataSAIL,它可以自动并一致地分割数据集,使其训练数据和测试数据之间的差异最大化。这意味着,只有当测试数据与训练数据有显著差异时,才能真正判断模型是否能够在实际应用中处理新的、未见过的数据(即所谓的“分布外”数据)。 项目的主要推动者之一是FAU生物医学工程人工智能系的教授David Blumenthal博士。他与HIPS的研究团队合作,共同研发了这一创新工具。Blumenthal强调:“DataSAIL是一个免费工具,适用于所有类型的数据,而不仅仅是生物学研究中的数据。用户只需定义数据集的几个参数,DataSAIL便能自动且一致地完成其余工作。”这使得研究人员和开发者能够更可靠地测试和验证其AI模型的性能。 DataSAIL不仅在数据分割方面表现出色,还是首个能够自动处理交互数据的工具。这类多维数据在药物研究中尤为重要。例如,在预测药物与目标蛋白质的相互作用时,需要测试模型在处理修改后的药物分子和不同的蛋白质上的表现。这种能力有助于提高模型在实际应用中的鲁棒性和泛化能力。 此外,DataSAIL还能考虑分类特征,比如在训练数据和测试数据中保持性别分布的均衡。这避免了模型在某些群体中的测试结果不真实的情况,提高了数据评估的公平性和准确性。 研究人员计划在未来几年内继续改进DataSAIL,减少算法运行时间,并使其更好地适应各种实际应用场景。通过这些进一步的优化,DataSAIL有望成为AI领域中数据评估的一个标准工具。

Related Links