Affinage antagoniste à l'aide de sons respiratoires générés pour aborder le déséquilibre des classes

Les modèles génératifs profonds sont apparus comme une approche prometteuse dans le domaine des images médicales pour faire face à la pénurie de données. Cependant, leur utilisation pour les données séquentielles, telles que les sons respiratoires, est moins explorée. Dans ce travail, nous proposons une approche simple pour augmenter les données sonores respiratoires déséquilibrées en utilisant un modèle de diffusion audio comme codificateur vocal conditionnel. Nous démontrons également une méthode d'affinage adverse simple mais efficace pour aligner les caractéristiques entre les échantillons synthétiques et réels de sons respiratoires, afin d'améliorer les performances de classification des sons respiratoires. Nos résultats expérimentaux sur l'ensemble de données ICBHI montrent que l'affinage adverse proposé est efficace, tandis que l'utilisation seule de la méthode d'augmentation conventionnelle entraîne une dégradation des performances. De plus, notre méthode surpassent la référence de 2,24 % sur le score ICBHI et améliore la précision des classes minoritaires jusqu'à 26,58 %. Pour le matériel supplémentaire, nous fournissons le code à l'adresse suivante : https://github.com/kaen2891/adversarial_fine-tuning_using_generated_respiratory_sound.