Kurvaturbasierte Merkmalsauswahl mit Anwendung in der Klassifizierung elektronischer Gesundheitsakten

Störungstechnologien bieten einzigartige Möglichkeiten, zur Identifizierung vieler Aspekte im ubiquitären Gesundheitswesen beizutragen, von der Einführung des Internets der Dinge bis hin zu Maschinelles Lernen (ML)-Techniken. Als mächtiges Werkzeug wird ML weit verbreitet in patientenzentrierten Gesundheitslösungen angewendet. Um die Qualität der Patientenversorgung weiter zu verbessern, werden Elektronische Gesundheitsakten (EHRs) in Gesundheitseinrichtungen häufig für Analysen genutzt. Es ist eine wichtige Aufgabe, KI und ML anzuwenden, um diese EHRs für Vorhersagen und Diagnosen zu analysieren, aufgrund ihrer stark unstrukturierten, unbalancierten, unvollständigen und hochdimensionalen Natur. Dimensionsreduktion ist eine gängige Datenvorverarbeitungstechnik zur Bewältigung hochdimensionaler EHR-Daten. Sie zielt darauf ab, die Anzahl der Merkmale der EHR-Darstellung zu reduzieren, während die Leistung der nachfolgenden Datenanalyse verbessert wird, z.B. bei der Klassifikation. In dieser Arbeit wird eine effiziente filterbasierte Merkmalsauswahlmethode vorgestellt: die Krümmungs-basierte Merkmalsauswahl (CFS). Das vorgeschlagene CFS wendet das Konzept der Menger-Krümmung an, um die Gewichte aller Merkmale im gegebenen Datensatz zu bewerten. Die Leistung des vorgeschlagenen CFS wurde anhand vier bekannter EHR-Datensätze evaluiert: Risikofaktoren für Gebärmutterhalskrebs (CCRFDS), Brustkrebs Coimbra (BCCDS), Brustgewebe (BTDS) und diabetische Retinopathie Debrecen (DRDDS). Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene CFS den Stand der Technik auf den oben genannten Datensätzen gegenüber konventionellem PCA und anderen neuesten Ansätzen erreicht hat. Der Quellcode des vorgeschlagenen Verfahrens ist öffentlich verfügbar unter https://github.com/zhemingzuo/CFS.