2ヶ月前

注意は常に必要か?音声からの言語識別に関する事例研究

Atanu Mandal; Santanu Pal; Indranil Dutta; Mahidas Bhattacharya; Sudip Kumar Naskar
注意は常に必要か?音声からの言語識別に関する事例研究
要約

言語識別(LID)は、音声サンプルから話されている言語を特定する自動音声認識(ASR)分野における重要な前処理プロセスです。現代の多言語対応システムでは、利用前にユーザーが一つまたは複数の言語を明示的に指定することが必要とされています。ASRシステムが多言語環境で話されている言語を理解できない場合、LIDタスクは重要な役割を果たし、失敗した音声認識の結果を防ぎます。本研究では、メル周波数ケプストラム係数(MFCC)特性に基づく畳み込み再帰型ニューラルネットワーク(CRNN)を使用したLID手法を提案します。さらに、最新の手法である畳み込みニューラルネットワーク(CNN)と注意機構付き畳み込み再帰型ニューラルネットワーク(Attention-based CRNN)を再現し、それらとの比較分析を行いました。我々は13種類の異なるインドの言語について包括的な評価を行い、提案モデルは98%以上の分類精度を達成しました。LIDモデルは、言語学的に類似している言語に対して97%から100%の高性能レベルを示しています。提案されたLIDモデルは追加の言語への高い拡張性を持ち、ノイズに対する強い耐性も示しており、ヨーロッパ言語(EU)データセットにおいてノイジーな環境での精度が91.2%に達しています。