Erkundung von vorab trainierten allgemeinen Audio-Darstellungen für die Detektion von Herzmurmeln

Um den Bedarf an qualifizierten Klinikern bei der Interpretation von Herztönen zu reduzieren, haben jüngste Studien zur Automatisierung der kardialen Auskultation tiefes Lernen untersucht. Allerdings sind die Anforderungen an große Datenmengen für tiefes Lernen hoch, während die Größe der Herztongruppen begrenzt ist und es keine vortrainierten Modelle gibt. Im Gegensatz dazu stehen viele vortrainierte Modelle für allgemeine Audioaufgaben als allgemeine Audiodarstellungen zur Verfügung. Diese Studie untersucht das Potenzial allgemeiner Audiodarstellungen, die auf umfangreichen Datensätzen vortrainiert wurden, für das Transferlernen bei der Detektion von Herzrasseln. Experimente mit dem CirCor DigiScope-Herzton-Datensatz zeigen, dass das neu entwickelte selbstüberwachte Lernverfahren Masked Modeling Duo (M2D) frühere Methoden übertreffen kann, wobei es eine gewichtete Genauigkeit von 0,832 und einen ungewichteten durchschnittlichen Recall von 0,713 erreicht hat. Weitere Experimente bestätigen eine verbesserte Leistung durch das Ensemble von M2D mit anderen Modellen. Diese Ergebnisse demonstrieren die Effektivität allgemeiner Audiodarstellungen bei der Verarbeitung von Herztönen und bahnen den Weg für weitere Anwendungen. Unser Code ist online verfügbar und läuft auf einer 24 GB Consumer-GPU unter https://github.com/nttcslab/m2d/tree/master/app/circor.