Open ASRリーダーボード新展開:多言語・長文対応で浮き彫りになった性能トレンドと今後の課題
2025年11月21日現在、オープンASRリーダーボードは、18の組織から提供される60以上のオープン・クローズドソースモデルを、11のデータセットで比較している。このリーダーボードは、従来の短時間英語音声認識(30秒未満)に偏るベンチマークとは異なり、多言語対応と長時間音声処理という重要な課題に焦点を当てており、実用性の高い評価基準を提供している。 主な傾向として、Conformerエンコーダーと大規模言語モデル(LLM)デコーダーを組み合わせたモデルが英語認識精度でトップを記録している。NVIDIAのCanary-Qwen-2.5B、IBMのGranite-Speech-3.3-8B、MicrosoftのPhi-4-Multimodal-Instructなどが低単語誤り率(WER)を達成。特にNVIDIAは、2倍高速な「Fast Conformer」を導入し、性能と効率の両立を実現している。 一方、LLMデコーダーは処理速度に課題があり、逆リアルタイム係数(RTFx)ではCTCやTDTデコーダーが10~100倍速く、リアルタイムやバッチ処理に適している。効率と精度のトレードオフが顕著で、用途に応じた選定が不可欠。 多言語対応では、OpenAIのWhisper Large v3が99言語をカバーする強力なベースライン。しかし、微調整や蒸留(Distil-Whisper、CrisperWhisper)されたモデルは英語タスクで上回る結果を示し、専門化が精度向上に有効であることを示している。一方、1000語以上に対応する自己教師学習モデル(MMS、Omnilingual ASR)は多言語性に優れるが、精度では言語別エンコーダーに劣る。 長時間音声処理(会議、ポッドキャストなど)では、まだクローズドソースモデルが優位。オープンモデルの中ではWhisper Large v3が最良だが、NVIDIAのParakeet CTC 1.1BはRTFxが2793.75と圧倒的に高速で、誤り率もわずかに上昇(6.68 vs 6.43)にとどまる。ただし、これは英語専用であり、多言語性と専門性のトレードオフを再確認する事例である。 今後、多言語拡張や地域言語(アラビア語、ロシア語など)のリーダーボードも拡充予定。コミュニティ主導の取り組みが、データ共有とモデル比較の透明性を高めている。オープンソースの革新が、長時間音声認識の未来を切り開く可能性を秘めている。
