
要約
言語識別(LI)は、多くの音声処理システムにおいて重要な最初のステップです。音声ベースのアシスタントの増加に伴い、音声LIは広く研究される分野となっています。言語識別の問題に取り組む際には、言語のみの音声が存在する暗黙的なアプローチと、その対応するテキストが利用できる明示的なアプローチがあります。本論文では、トランスクリプティブデータがないため、暗黙的なアプローチに焦点を当てています。本論文では既存のモデルをベンチマークし、入力としてlog-Melスペクトログラム画像を使用する新しい注意メカニズムに基づいたモデルを提案しています。また、原始波形をニューラルネットワークモデルの特徴量として使用することの有効性も示しています。モデルの訓練と評価のために、VoxForgeデータセットから6つの言語(英語、フランス語、ドイツ語、スペイン語、ロシア語、イタリア語)で95.4%の精度と4つの言語(英語、フランス語、ドイツ語、スペイン語)で96.3%の精度を得ました。この手法はさらに拡張され、より多くの言語を含めることができます。