8ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Yassine El Kheir Shammur Absar Chowdhury* Ahmed Ali Hamdy Mubarak Shazia Afzal

概要

第二言語（L2）のラベル付き音声データの不足は、発音誤り検出モデルの設計における主要な課題となっています。本研究では、SpeechBlenderという微細なデータ拡張パイプラインを導入し、このデータ不足を克服するために発音誤りを生成する方法を提案します。SpeechBlenderは、異なる音韻単位の領域を対象とする様々なマスクを使用し、発音を拡張しながら生の音声信号を線形補間します。これらのマスクは信号の滑らかな合成を促進し、「カット/ペースト」手法よりも効果的なサンプルを生成します。我々が提案する技術は、Speechocean762において音素レベルでのASR依存発音誤り検出モデルで最先端の結果を達成しており、以前の最先端手法[1]と比較してピアソン相関係数（PCC）で2.0%の向上が見られました。さらに、ベースラインと比較して音素レベルで5.0%の改善が示されました。また、アラビア語AraVoiceL2テストセットにおいてF1スコアが4.6%向上しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Yassine El Kheir Shammur Absar Chowdhury* Ahmed Ali Hamdy Mubarak Shazia Afzal

概要

第二言語（L2）のラベル付き音声データの不足は、発音誤り検出モデルの設計における主要な課題となっています。本研究では、SpeechBlenderという微細なデータ拡張パイプラインを導入し、このデータ不足を克服するために発音誤りを生成する方法を提案します。SpeechBlenderは、異なる音韻単位の領域を対象とする様々なマスクを使用し、発音を拡張しながら生の音声信号を線形補間します。これらのマスクは信号の滑らかな合成を促進し、「カット/ペースト」手法よりも効果的なサンプルを生成します。我々が提案する技術は、Speechocean762において音素レベルでのASR依存発音誤り検出モデルで最先端の結果を達成しており、以前の最先端手法[1]と比較してピアソン相関係数（PCC）で2.0%の向上が見られました。さらに、ベースラインと比較して音素レベルで5.0%の改善が示されました。また、アラビア語AraVoiceL2テストセットにおいてF1スコアが4.6%向上しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

SpeechBlender: 発音誤りデータ生成のための音声拡張フレームワーク | 記事 | HyperAI超神経