Back to Headlines

NVIDIA、25言語対応の多言語音声AIデータセットとモデルを公開

2日前

NVIDIAが、25のヨーロッパ言語に対応する多言語音声AI用のオープンデータセット「Granary」と、高性能音声認識・翻訳モデル「Canary-1b-v2」と「Parakeet-tdt-0.6b-v3」を公開した。世界約7,000の言語のうち、AIモデルがカバーできるのはごくわずかにとどまる現状に鑑み、同社は言語の多様性を高める取り組みを推進している。特に、クロアチア語、エストニア語、マルタ語など、データが限られる言語の開発支援を目的としている。 Granaryは、カーネギー・メロン大学とFondazione Bruno Kesslerとの共同研究により構築された。NVIDIAの「NeMo Speech Data Processor」ツールキットを活用し、ラベルのない音声データを自動で構造化・品質向上する処理パイプラインを構築。これにより、人手によるアノテーションに頼らず、高品質な学習データを迅速に生成可能となった。このパイプラインはGitHubでオープンソースとして提供され、他の言語やモデルへの展開が容易になる。 研究チームは、Interspeech 2025(8月17日~21日、オランダ)で発表する論文で、Granaryを使用することで、従来のデータセットと比べて半分以下のデータ量で同等の音声認識(ASR)および音声翻訳(AST)精度を達成できることを実証した。これは、リソースの少ない言語の開発を大幅に効率化する可能性を示している。 Canary-1b-v2は、25言語をサポートし、3倍大きなモデルと同等の精度を達成しながら、推論速度が最大10倍高速。Parakeet-tdt-0.6b-v3は、24分間の音声を1回の推論で処理可能で、入力言語の自動検出と、正確な句読点・大文字・単語レベルのタイムスタンプ出力を実現。両モデルは、NVIDIA NeMoソフトウェアスイートを活用して開発され、NeMo Curatorにより合成データの除去、音声とテキストの同期処理、フォーマット変換などを自動化した。 これらのデータセットとモデルはHugging Faceで公開され、開発者は世界中の多言語音声アプリケーション、たとえばマルチリンガルチャットボット、カスタマーサポート音声エージェント、リアルタイム翻訳サービスの構築を加速できる。NVIDIAは、この取り組みを通じて、AIによる音声技術のグローバルな公平性と包括性の向上を目指している。

Related Links