15日前
呼吸音分類における音響スペクトログラム変換器を用いたパッチミックス対照学習
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun

要約
呼吸音には、致命的な肺疾患の早期診断に不可欠な情報が含まれている。COVID-19パンデミック以降、電子式聴診器を活用した非接触型医療への関心が高まっている。このような背景のもと、深層学習モデルを用いた肺疾患診断のための最先端技術が開発されてきたが、医療データの不足という課題により、依然として困難が残っている。本研究では、大規模な視覚・音声データセットで事前学習されたモデルが、呼吸音分類タスクに一般化可能であることを実証した。さらに、音声スペクトログラム変換器(Audio Spectrogram Transformer: AST)と組み合わせて、異なるサンプル間のパッチをランダムに混合するシンプルな拡張手法であるPatch-Mixを導入した。また、潜在空間における混合表現を明確に区別できる新たな効果的なPatch-Mix対照学習(Patch-Mix Contrastive Learning)を提案した。本手法はICBHIデータセットにおいて、従来の最良スコアを4.08%上回る最先端の性能を達成した。