2 个月前

基于曲率的特征选择及其在电子健康记录分类中的应用

Zheming Zuo; Jie Li; Han Xu; Noura Al Moubayed
基于曲率的特征选择及其在电子健康记录分类中的应用
摘要

颠覆性技术为普及医疗保健领域的许多方面提供了前所未有的机遇,从物联网(Internet of Things, IoT)的应用到机器学习(Machine Learning, ML)技术的运用。作为强大的工具,机器学习已广泛应用于以患者为中心的医疗解决方案中。为了进一步提高患者护理质量,电子健康记录(Electronic Health Records, EHRs)在医疗机构中被普遍用于分析。由于电子健康记录具有高度非结构化、不平衡、不完整和高维的特点,应用人工智能(AI)和机器学习对其进行预测和诊断分析是一项关键任务。降维是处理高维电子健康记录数据的常用数据预处理技术,其目标是在改进后续数据分析性能(如分类)的同时减少电子健康记录表示中的特征数量。本研究提出了一种高效的基于过滤器的特征选择方法——曲率基特征选择(Curvature-based Feature Selection, CFS)。所提出的CFS方法利用了门格曲率(Menger Curvature)的概念来对给定数据集中所有特征的权重进行排序。该方法在四个知名电子健康记录数据集上进行了评估,包括宫颈癌风险因素数据集(Cervical Cancer Risk Factors Data Set, CCRFDS)、科英布拉乳腺癌数据集(Breast Cancer Coimbra Data Set, BCCDS)、乳腺组织数据集(Breast Tissue Data Set, BTDS)以及德布勒森糖尿病视网膜病变数据集(Diabetic Retinopathy Debrecen Data Set, DRDDS)。实验结果表明,所提出的CFS方法在这四个数据集上的表现优于传统的主成分分析(Principal Component Analysis, PCA)和其他最新的方法。所提出方法的源代码已公开发布在https://github.com/zhemingzuo/CFS。