2ヶ月前

心雑音検出のための事前学習済み汎用オーディオ表現の探索

Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino
心雑音検出のための事前学習済み汎用オーディオ表現の探索
要約

心音解釈における熟練した臨床医の必要性を軽減するため、最近の研究では自動化された心臓聴診に深層学習アプローチを適用することを探求しています。しかし、深層学習には大量のデータが必要であるにもかかわらず、心音データセットの規模は限られており、事前学習済みモデルが存在していません。一方で、一般的な音声タスク向けの多くの事前学習済みモデルが、汎用的な音声表現として利用可能です。本研究では、大規模データセットで事前学習された汎用的な音声表現を用いて心雑音検出における転移学習の可能性を探ります。CirCor DigiScope 心音データセットを用いた実験では、最近の自己監督学習手法であるマスキングモデリングデュオ(Masked Modeling Duo: M2D)が以前の方法を上回り、加重精度 0.832 および非加重平均リコール 0.713 の結果を示しました。さらに、M2D を他のモデルとアンサンブルすることで性能向上が確認されました。これらの結果は、汎用的な音声表現が心音処理において有効であることを示し、さらなる応用への道を開きます。当該コードはオンラインで公開されており、24 GB の一般消費者向け GPU で動作します。https://github.com/nttcslab/m2d/tree/master/app/circor

心雑音検出のための事前学習済み汎用オーディオ表現の探索 | 最新論文 | HyperAI超神経