7ヶ月前

音声および音声処理

自然言語処理

自然言語処理

オーディオ

Golshid Shekoufandeh Dragoș Alexandru Bălan

概要

音声認識（Automatic Speech Recognition: ASR）は、人間の発話をテキストに変換するシステムであり、人間のコミュニケーションをデジタル化する上で重要な役割を果たしている。しかし、これらのシステムの多くは英語、中国語、スペイン語などリソースが豊富な言語向けに設計されており、フリジア語などのリソースが乏しい言語は依然として十分にカバーされていない。この課題に対処するため、本研究ではCommon Voiceコーパスバージョン12.0を用いて学習された、Wav2Vec 2.0 XLS-Rアーキテクチャを微調整したASRモデルを提案し、フリジア語の音声を音声認識する手法を実現した。学習率8e-5を用いた本手法は、15.99%の単語誤り率（Word Error Rate: WER）を達成し、従来の最良手法（16.25%）を上回り、今後のこの分野における研究のベンチマークとしての役割を果たすものである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

音声および音声処理

自然言語処理

自然言語処理

オーディオ

Golshid Shekoufandeh Dragoș Alexandru Bălan

概要

音声認識（Automatic Speech Recognition: ASR）は、人間の発話をテキストに変換するシステムであり、人間のコミュニケーションをデジタル化する上で重要な役割を果たしている。しかし、これらのシステムの多くは英語、中国語、スペイン語などリソースが豊富な言語向けに設計されており、フリジア語などのリソースが乏しい言語は依然として十分にカバーされていない。この課題に対処するため、本研究ではCommon Voiceコーパスバージョン12.0を用いて学習された、Wav2Vec 2.0 XLS-Rアーキテクチャを微調整したASRモデルを提案し、フリジア語の音声を音声認識する手法を実現した。学習率8e-5を用いた本手法は、15.99%の単語誤り率（Word Error Rate: WER）を達成し、従来の最良手法（16.25%）を上回り、今後のこの分野における研究のベンチマークとしての役割を果たすものである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています