Apprentissage contrastif par patch-mix avec Transformer pour spectrogrammes audio dans la classification des sons respiratoires

Les sons respiratoires contiennent des informations essentielles pour le diagnostic précoce des maladies pulmonaires graves. Depuis la pandémie de COVID-19, l’intérêt croissant pour les soins médicaux sans contact, fondés sur des stéthoscopes électroniques, a stimulé de nombreux développements. À cet effet, des modèles d’apprentissage profond de pointe ont été conçus pour diagnostiquer les maladies pulmonaires ; toutefois, ces approches restent encore défavorisées par la rareté des données médicales. Dans cette étude, nous démontrons que les modèles pré-entraînés sur de grands jeux de données visuels et audio peuvent être généralisés avec succès à la tâche de classification des sons respiratoires. En outre, nous introduisons une nouvelle technique d’augmentation simple, appelée Patch-Mix, qui consiste à mélanger aléatoirement des patches provenant d’échantillons différents, en combinaison avec le modèle Audio Spectrogram Transformer (AST). Nous proposons également une nouvelle méthode efficace de Contraste par Patch-Mix, permettant de distinguer les représentations mélangées dans l’espace latente. Notre approche atteint des performances de pointe sur le jeu de données ICBHI, surpassant le meilleur score antérieur de 4,08 %.