2ヶ月前
BTS: テキストと音響モダリティの橋渡しによるメタデータ支援型呼吸音分類
Kim, June-Woo ; Toikkanen, Miika ; Choi, Yera ; Moon, Seoung-Eun ; Jung, Ho-Young

要約
呼吸音分類(RSC)は、患者の人口統計学的特徴や記録環境によって主に影響を受ける多様な音響特性のため、困難を伴います。この問題に対処するため、当研究では呼吸音のメタデータを利用したテキスト-オーディオマルチモーダルモデルを提案します。このメタデータは、患者の性別と年齢、記録装置の種類、および患者体上の記録位置を含む音声サンプルから派生したフリーテキスト説明を使用して、事前学習されたテキスト-オーディオマルチモーダルモデルを微調整します。本手法はICBHIデータセットにおいて最先端の性能を達成し、以前の最高結果を超える1.17%という有意な差で上回りました。この結果は、メタデータと呼吸音サンプルを利用することでRSC性能が向上することを証明しています。さらに、実際の臨床現場で起こり得る部分的にメタデータが利用できない場合におけるモデル性能についても調査を行いました。