HyperAIHyperAI
il y a 2 mois

Exploration des représentations audio pré-entraînées à usage général pour la détection de bruits cardiaques

Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino
Exploration des représentations audio pré-entraînées à usage général pour la détection de bruits cardiaques
Résumé

Pour réduire la dépendance aux cliniciens expérimentés dans l'interprétation des sons cardiaques, des études récentes sur l'automatisation de l'auscultation cardiaque ont exploré des approches basées sur l'apprentissage profond. Cependant, malgré la nécessité de disposer de grandes quantités de données pour l'apprentissage profond, la taille des jeux de données de sons cardiaques est limitée et aucun modèle pré-entraîné n'est disponible à ce jour. En revanche, de nombreux modèles pré-entraînés pour des tâches audio générales sont disponibles en tant que représentations audio polyvalentes. Cette étude examine le potentiel des représentations audio polyvalentes pré-entraînées sur des jeux de données à grande échelle pour le transfert d'apprentissage dans la détection des bruits cardiaques. Les expériences menées sur le jeu de données de sons cardiaques CirCor DigiScope montrent que le récent apprentissage auto-supervisé Masked Modeling Duo (M2D) surpass les méthodes précédentes avec une précision pondérée de 0,832 et une moyenne non pondérée du rappel de 0,713. Les expériences supplémentaires confirment une amélioration des performances en combinant M2D avec d'autres modèles. Ces résultats démontrent l'efficacité des représentations audio polyvalentes dans le traitement des sons cardiaques et ouvrent la voie à d'autres applications. Notre code est disponible en ligne et fonctionne sur une carte graphique grand public de 24 Go à l'adresse suivante : https://github.com/nttcslab/m2d/tree/master/app/circor