HyperAIHyperAI
vor 2 Monaten

BTS: Die Brücke zwischen Text- und Klangmodalitäten für die metadatenunterstützte Klassifizierung von Atemgeräuschen

Kim, June-Woo ; Toikkanen, Miika ; Choi, Yera ; Moon, Seoung-Eun ; Jung, Ho-Young
BTS: Die Brücke zwischen Text- und Klangmodalitäten für die metadatenunterstützte Klassifizierung von Atemgeräuschen
Abstract

Die Klassifizierung von Atemgeräuschen (RSC) ist aufgrund der unterschiedlichen akustischen Signaturen herausfordernd, die hauptsächlich durch die Patientendaten und die Aufnahmumgebungen beeinflusst werden. Um dieses Problem zu lösen, stellen wir ein multimodales Text-Audio-Modell vor, das Metadaten von Atemgeräuschen nutzt, welche wertvolle ergänzende Informationen für die RSC liefern. Insbesondere feinjustieren wir ein vortrainiertes multimodales Text-Audio-Modell unter Verwendung von freitextbasierten Beschreibungen, die aus den Metadaten der Tonbeispiele abgeleitet werden. Diese enthalten das Geschlecht und das Alter der Patienten, den Typ der Aufnahmegeräte sowie den Aufnahmeort am Körper des Patienten. Unsere Methode erzielt einen Stand-des-Wissens-Status auf dem ICBHI-Datensatz und übertreffen das bisher beste Ergebnis um einen bemerkenswerten Marginalwert von 1,17 %. Dieses Ergebnis bestätigt die Effektivität der Nutzung von Metadaten und Atemgeräuschproben zur Verbesserung der RSC-Leistung. Zudem untersuchen wir die Modellleistung im Fall teilweise nicht verfügbarer Metadaten, was in realen klinischen Szenarien auftreten kann.

BTS: Die Brücke zwischen Text- und Klangmodalitäten für die metadatenunterstützte Klassifizierung von Atemgeräuschen | Neueste Forschungsarbeiten | HyperAI