17日前
ChunkFormer:長文音声トランスクリプション向けマスク付きチャンク化Conformer
Khanh Le, Tuan Vu Ho, Dung Tran, Duc Thanh Chau

要約
産業規模でのASRモデルの展開は、ハードウェアリソース管理において大きな課題を伴う。特に、数時間にわたる長時間音声のトランスクリプションタスクではその影響が顕著である。大規模なConformerモデルは性能に優れるものの、80GBのGPU上で最大15分間の音声しか処理できず、限界がある。さらに、入力長が変動する場合、標準的なバッチ処理により過剰なパディングが発生し、リソース消費と実行時間の増加を引き起こすという非効率性が悪化する。こうした課題に対処するため、本研究では「ChunkFormer」という効率的なASRモデルを提案する。このモデルは、相対的な右側コンテキストを用いたチャンク単位処理を採用しており、低メモリGPU上でも長時間音声のトランスクリプションが可能となる。ChunkFormerは80GB GPU上で最大16時間の音声処理が可能であり、現在の最先端モデルであるFastConformerよりも1.5倍長い処理が可能である。また、単語誤り率(WER)において最大7.7%の絶対的低減を達成し、長時間トランスクリプションの性能を向上させつつ、短時間タスクにおいてもConformerと同等の精度を維持している。標準的なバッチ処理におけるパディングの必要性を排除する「マスクバッチ処理」技術により、バッチ処理時の実行時間およびメモリ使用量が3倍以上削減され、特に実世界でのモデル運用に必要なGPUリソースにかかわるコストを大幅に低減できる。この成果は、幅広いASRシステムにおける効率的かつ経済的な運用を可能にする。