MedFuse: Multimodale Fusion von klinischen Zeitreihendaten und Brust-röntgenbildern

Multimodale Fusionierungsansätze zielen darauf ab, Informationen aus verschiedenen Datenquellen zu integrieren. Im Gegensatz zu natürlichen Datensätzen, wie bei audiovisuellen Anwendungen, bei denen die Proben aus „gepaarten“ Modalitäten bestehen, wird Daten im Gesundheitswesen oft asynchron gesammelt. Daher ist es für klinische Aufgaben nicht realistisch, die Anwesenheit aller Modalitäten für ein gegebenes Probe zu erfordern, was die Größe des Datensatzes während des Trainings erheblich einschränkt. In dieser Arbeit schlagen wir MedFuse vor, ein konzeptionell einfaches und dennoch vielversprechendes LSTM-basiertes Fusionierungsmodul, das sowohl unimodales als auch multimodales Eingangssignal verarbeiten kann. Wir evaluieren die Fusionierungsmethode und stellen neue Benchmark-Ergebnisse für die Vorhersage der In-Hospital-Mortalität und die Phänotypklassifikation vor, indem wir klinische Zeitreihendaten aus dem MIMIC-IV-Datensatz und entsprechende Röntgenbilder der Brust aus dem MIMIC-CXR-Datensatz verwenden. Verglichen mit komplexeren multimodalen Fusionierungsstrategien bietet MedFuse eine erhebliche Leistungsverbesserung auf dem vollständig gepaarten Testdatensatz. Es bleibt auch robust auf dem teilweise gepaarten Testdatensatz, der Proben ohne Röntgenbilder der Brust enthält. Wir veröffentlichen unseren Code zur Wiederholbarkeit und um zukünftige Evaluierungen von rivalisierenden Modellen zu ermöglichen.