要約
言語識別(LID)システムは、与えられた音声サンプルから話されている言語を分類するために使用され、多くの音声言語処理タスクの最初のステップとして一般的に位置づけられています。例えば、自動音声認識(ASR)システムにおいても同様です。自動的な言語検出がなければ、音声発話は正しく解析されず、文法規則も適用できないため、その後の音声認識プロセスが失敗します。本研究では、従来の音響領域ではなく画像領域で問題を解決するLIDシステムを提案します。当該システムでは、提供された音声断片のスペクトログラム画像に対して動作するハイブリッド畳み込み再帰型ニューラルネットワーク(CRNN)を使用しています。広範な実験を通じて、当モデルがさまざまなノイジーな状況に適用可能であり、未知の言語への拡張も容易であることが示されました。同時に、分類精度を維持することができます。私たちはこのコードと大規模な学習データセットをコミュニティに公開します。