8ヶ月前

音声および音声処理

オーディオ

コンピュータビジョン

Sarthak Shikhar Shukla Govind Mittal

概要

言語識別（LI）は、多くの音声処理システムにおいて重要な最初のステップです。音声ベースのアシスタントの増加に伴い、音声LIは広く研究される分野となっています。言語識別の問題に取り組む際には、言語のみの音声が存在する暗黙的なアプローチと、その対応するテキストが利用できる明示的なアプローチがあります。本論文では、トランスクリプティブデータがないため、暗黙的なアプローチに焦点を当てています。本論文では既存のモデルをベンチマークし、入力としてlog-Melスペクトログラム画像を使用する新しい注意メカニズムに基づいたモデルを提案しています。また、原始波形をニューラルネットワークモデルの特徴量として使用することの有効性も示しています。モデルの訓練と評価のために、VoxForgeデータセットから6つの言語（英語、フランス語、ドイツ語、スペイン語、ロシア語、イタリア語）で95.4%の精度と4つの言語（英語、フランス語、ドイツ語、スペイン語）で96.3%の精度を得ました。この手法はさらに拡張され、より多くの言語を含めることができます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

オーディオ

コンピュータビジョン

Sarthak Shikhar Shukla Govind Mittal

概要

言語識別（LI）は、多くの音声処理システムにおいて重要な最初のステップです。音声ベースのアシスタントの増加に伴い、音声LIは広く研究される分野となっています。言語識別の問題に取り組む際には、言語のみの音声が存在する暗黙的なアプローチと、その対応するテキストが利用できる明示的なアプローチがあります。本論文では、トランスクリプティブデータがないため、暗黙的なアプローチに焦点を当てています。本論文では既存のモデルをベンチマークし、入力としてlog-Melスペクトログラム画像を使用する新しい注意メカニズムに基づいたモデルを提案しています。また、原始波形をニューラルネットワークモデルの特徴量として使用することの有効性も示しています。モデルの訓練と評価のために、VoxForgeデータセットから6つの言語（英語、フランス語、ドイツ語、スペイン語、ロシア語、イタリア語）で95.4%の精度と4つの言語（英語、フランス語、ドイツ語、スペイン語）で96.3%の精度を得ました。この手法はさらに拡張され、より多くの言語を含めることができます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

音声言語識別におけるConvNetsの利用 | 記事 | HyperAI超神経