17日前

CSVC-Net:Deep CNN-LSTMネットワークを用いたコードスイッチド音声コマンド分類

{Md. Hasanul Kabir, Sabbir Ahmed, Fariha Ishrat Rahman, Arowa Yasmeen}
要約

植民地主義の影響により、口語的バングラ語は多くの英語語彙を採用している。会話におけるバングラ語では、英語とバングラ語を混合して話すことが一般的であり、これを「コードスイッチング(CS)」と呼ぶ。近年、CSの使用が増加する中で音声コマンド分類器を構築する際には、単一の基本コマンドに対して、複数の言語混合状態で発話されるさまざまなバリエーションを正確に認識することが不可欠となる。これまでのバングラ語音声に関する研究は、主に単語分類に焦点を当てており、文における複雑な意味的関係を理解する能力に欠けていた。本論文では、バングラ語と英語の間でコードスイッチングが生じる音声コマンドを分類するためのCNN-LSTMベースのアーキテクチャ「CSVC-Net」を提案する。さらに、現実の状況を的確に反映するため、11クラスに分類されるコンピュータコマンドの音声データを3,840件収集し、合計64種類のバリエーションを含む新規データセット「Banglish」を構築した。提案手法は、入力音声信号に対して適切な変換およびオーグメンテーション処理を段階的に施すことで、収集したデータセット上で92.08%の精度を達成した。さらに、異なるアーキテクチャとの比較およびさまざまなノイズレベル下でのテストにより、本モデルの堅牢性が検証され、実用的な状況下でも高い精度を維持する可能性が示された。

CSVC-Net:Deep CNN-LSTMネットワークを用いたコードスイッチド音声コマンド分類 | 最新論文 | HyperAI超神経