vor 2 Monaten

Unüberwachte Vortrainierung auf Patientenpopulationsgraphen für Patientenbezogene Vorhersagen

Chantal Pellegrini; Anees Kazi; Nassir Navab

Abstract

Das Vor-Training hat in verschiedenen Bereichen des maschinellen Lernens, wie der Computervision (CV), der Verarbeitung natürlicher Sprache (NLP) und der medizinischen Bildgebung, Erfolge gezeigt. Es wurde jedoch noch nicht vollständig für die klinische Datenanalyse erforscht. Obwohl eine enorme Menge an Daten aus elektronischen Gesundheitsakten (EHR) aufgezeichnet wird, können Daten und Labels knapp sein, wenn die Daten in kleinen Krankenhäusern gesammelt werden oder seltene Krankheiten betreffen. In solchen Szenarien könnte das Vor-Training auf einem größeren Datensatz von EHRs die Leistung des Modells verbessern. In dieser Arbeit wenden wir ein unüberwachtes Vor-Training auf heterogene, multimodale EHR-Daten zur Prognose von Patientenergebnissen an. Um diese Daten zu modellieren, nutzen wir tiefes Graph-Lernen über Populationsgraphen. Wir entwerfen zunächst eine Netzwerkarchitektur basierend auf einem Graph-Transformer, der verschiedene Eingabe-Feature-Typen in EHR-Daten verarbeiten kann, wie kontinuierliche, diskrete und zeitliche Features, was eine bessere Multimodalitätsfusion ermöglicht. Darüber hinaus entwickeln wir Vor-Trainingsmethoden basierend auf maskierter Imputation, um unser Netzwerk vor dem Feinjustieren an verschiedenen Endaufgaben vorzubilden. Das Vor-Training erfolgt vollständig unüberwacht, was den Grundstein für zukünftiges Vor-Training auf großen öffentlichen Datensätzen mit unterschiedlichen Aufgaben und ähnlichen Modalitäten legt. Wir testen unsere Methode an zwei medizinischen Datensätzen von Patientenakten, TADPOLE und MIMIC-III, einschließlich bildbasierter und nicht bildbasierter Features sowie verschiedener Prognoseaufgaben. Wir stellen fest, dass unser vorgeschlagenes graphbasiertes Vor-Training-Methode bei der Modellierung der Daten auf Populationsniveau hilft und die Leistung bei den Feinjustieraufgaben im Durchschnitt um 4,15 % bei MIMIC und 7,64 % bei TADPOLE in Bezug auf den AUC verbessert.