BTS : Pont entre les modalités textuelles et sonores pour la classification des sons respiratoires assistée par des métadonnées

La classification des sons respiratoires (RSC) est un défi en raison des signatures acoustiques variées, principalement influencées par les caractéristiques démographiques des patients et les environnements d'enregistrement. Pour répondre à ce problème, nous présentons un modèle multimodal texte-audio qui utilise les métadonnées des sons respiratoires, fournissant ainsi des informations complémentaires utiles pour la RSC. Plus précisément, nous affinons un modèle multimodal texte-audio préentraîné en utilisant des descriptions textuelles libres issues des métadonnées des échantillons sonores, qui comprennent le sexe et l'âge des patients, le type de dispositifs d'enregistrement et l'emplacement d'enregistrement sur le corps du patient. Notre méthode atteint une performance de pointe sur l'ensemble de données ICBHI, surpassant le meilleur résultat précédent avec une marge notable de 1,17 %. Ce résultat valide l'efficacité de l'utilisation des métadonnées et des échantillons sonores respiratoires pour améliorer les performances de la RSC. De plus, nous examinons les performances du modèle dans le cas où certaines métadonnées sont partiellement indisponibles, une situation qui peut se produire dans un contexte clinique réel.