8ヶ月前

マルチモーダル

マルチモーダル表現

オーディオ

マルチモーダル

June-Woo Kim*1,2, Miika Toikkanen2, Yera Choi3, Seoung-Eun Moon3†, Ho-Young Jung1†

概要

呼吸音分類（RSC）は、患者の人口統計学的特徴や記録環境によって主に影響を受ける多様な音響特性のため、困難を伴います。この問題に対処するため、当研究では呼吸音のメタデータを利用したテキスト-オーディオマルチモーダルモデルを提案します。このメタデータは、患者の性別と年齢、記録装置の種類、および患者体上の記録位置を含む音声サンプルから派生したフリーテキスト説明を使用して、事前学習されたテキスト-オーディオマルチモーダルモデルを微調整します。本手法はICBHIデータセットにおいて最先端の性能を達成し、以前の最高結果を超える1.17%という有意な差で上回りました。この結果は、メタデータと呼吸音サンプルを利用することでRSC性能が向上することを証明しています。さらに、実際の臨床現場で起こり得る部分的にメタデータが利用できない場合におけるモデル性能についても調査を行いました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

オーディオ

マルチモーダル

June-Woo Kim*1,2, Miika Toikkanen2, Yera Choi3, Seoung-Eun Moon3†, Ho-Young Jung1†

概要

呼吸音分類（RSC）は、患者の人口統計学的特徴や記録環境によって主に影響を受ける多様な音響特性のため、困難を伴います。この問題に対処するため、当研究では呼吸音のメタデータを利用したテキスト-オーディオマルチモーダルモデルを提案します。このメタデータは、患者の性別と年齢、記録装置の種類、および患者体上の記録位置を含む音声サンプルから派生したフリーテキスト説明を使用して、事前学習されたテキスト-オーディオマルチモーダルモデルを微調整します。本手法はICBHIデータセットにおいて最先端の性能を達成し、以前の最高結果を超える1.17%という有意な差で上回りました。この結果は、メタデータと呼吸音サンプルを利用することでRSC性能が向上することを証明しています。さらに、実際の臨床現場で起こり得る部分的にメタデータが利用できない場合におけるモデル性能についても調査を行いました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています