HyperAIHyperAI

Command Palette

Search for a command to run...

BTS: テキストと音響モダリティの橋渡しによるメタデータ支援型呼吸音分類

June-Woo Kim*1,2, Miika Toikkanen2, Yera Choi3, Seoung-Eun Moon3†, Ho-Young Jung1†

概要

呼吸音分類(RSC)は、患者の人口統計学的特徴や記録環境によって主に影響を受ける多様な音響特性のため、困難を伴います。この問題に対処するため、当研究では呼吸音のメタデータを利用したテキスト-オーディオマルチモーダルモデルを提案します。このメタデータは、患者の性別と年齢、記録装置の種類、および患者体上の記録位置を含む音声サンプルから派生したフリーテキスト説明を使用して、事前学習されたテキスト-オーディオマルチモーダルモデルを微調整します。本手法はICBHIデータセットにおいて最先端の性能を達成し、以前の最高結果を超える1.17%という有意な差で上回りました。この結果は、メタデータと呼吸音サンプルを利用することでRSC性能が向上することを証明しています。さらに、実際の臨床現場で起こり得る部分的にメタデータが利用できない場合におけるモデル性能についても調査を行いました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BTS: テキストと音響モダリティの橋渡しによるメタデータ支援型呼吸音分類 | 記事 | HyperAI超神経