HyperAIHyperAI

Command Palette

Search for a command to run...

CSVC-Net:Deep CNN-LSTMネットワークを用いたコードスイッチド音声コマンド分類

Md. Hasanul Kabir Sabbir Ahmed Fariha Ishrat Rahman Arowa Yasmeen

概要

植民地主義の影響により、口語的バングラ語は多くの英語語彙を採用している。会話におけるバングラ語では、英語とバングラ語を混合して話すことが一般的であり、これを「コードスイッチング(CS)」と呼ぶ。近年、CSの使用が増加する中で音声コマンド分類器を構築する際には、単一の基本コマンドに対して、複数の言語混合状態で発話されるさまざまなバリエーションを正確に認識することが不可欠となる。これまでのバングラ語音声に関する研究は、主に単語分類に焦点を当てており、文における複雑な意味的関係を理解する能力に欠けていた。本論文では、バングラ語と英語の間でコードスイッチングが生じる音声コマンドを分類するためのCNN-LSTMベースのアーキテクチャ「CSVC-Net」を提案する。さらに、現実の状況を的確に反映するため、11クラスに分類されるコンピュータコマンドの音声データを3,840件収集し、合計64種類のバリエーションを含む新規データセット「Banglish」を構築した。提案手法は、入力音声信号に対して適切な変換およびオーグメンテーション処理を段階的に施すことで、収集したデータセット上で92.08%の精度を達成した。さらに、異なるアーキテクチャとの比較およびさまざまなノイズレベル下でのテストにより、本モデルの堅牢性が検証され、実用的な状況下でも高い精度を維持する可能性が示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています