8ヶ月前

音声および音声処理

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Kazuki Irie Rohit Prabhavalkar Anjuli Kannan Antoine Bruguier David Rybach Patrick Nguyen

概要

従来の音声認識においては、英語のような非音素言語では音素ベースのモデルが文字ベースのモデルを上回ることが一般的です。この性能差は通常、学習データの量が増加するにつれて縮小します。本研究では、注意機構を用いたエンコーダー-デコーダーモデルにおけるモデリング単位の選択が与える影響を検討しました。LibriSpeech 100時間、460時間、および960時間タスクを使用し、さまざまな目標単位（音素、文字、ワードピース）で実験を行いました。全タスクにわたって、辞書や外部言語モデルなしで評価されたにもかかわらず、文字またはワードピースベースのモデルが一貫して音素ベースのモデルを上回ることが確認されました。また、モデル間の補完性についても調査しました。その結果、強力なワードピースベースの基準モデルから生成されたNベストリストを音素または文字モデルで再スコアリングすることで、相対的に最大9%のWER改善が可能であることがわかりました。しかし、音素システムによって生成されたNベストリストを再スコアリングすることは限られた改善しかもたらしません。さらに分析した結果、ワードピースベースのモデルはより多様なNベスト仮説を生成し、それによりオラクルWERが低くなることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Kazuki Irie Rohit Prabhavalkar Anjuli Kannan Antoine Bruguier David Rybach Patrick Nguyen

概要

従来の音声認識においては、英語のような非音素言語では音素ベースのモデルが文字ベースのモデルを上回ることが一般的です。この性能差は通常、学習データの量が増加するにつれて縮小します。本研究では、注意機構を用いたエンコーダー-デコーダーモデルにおけるモデリング単位の選択が与える影響を検討しました。LibriSpeech 100時間、460時間、および960時間タスクを使用し、さまざまな目標単位（音素、文字、ワードピース）で実験を行いました。全タスクにわたって、辞書や外部言語モデルなしで評価されたにもかかわらず、文字またはワードピースベースのモデルが一貫して音素ベースのモデルを上回ることが確認されました。また、モデル間の補完性についても調査しました。その結果、強力なワードピースベースの基準モデルから生成されたNベストリストを音素または文字モデルで再スコアリングすることで、相対的に最大9%のWER改善が可能であることがわかりました。しかし、音素システムによって生成されたNベストリストを再スコアリングすることは限られた改善しかもたらしません。さらに分析した結果、ワードピースベースのモデルはより多様なNベスト仮説を生成し、それによりオラクルWERが低くなることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています