17日前
ユニバーサルトランスフォーマーを超越して:自動音声認識におけるトランスフォーマーにおけるアダプターを用いたブロック再利用
Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li

要約
最近、Transformerベースのモデルは、エンドツーエンド(E2E)自動音声認識(ASR)分野において顕著な成果を上げている。これらのモデルを活用することで、スマートデバイス上にE2E ASRシステムを導入することが可能となる。しかしながら、これらのモデルは依然として膨大な数のモデルパラメータを必要とするという課題を抱えている。エッジデバイス上でのASR応用において、汎用的なTransformerモデルのこの欠点を克服するため、本研究では、小型化されたASRシステム向けにTransformerモデル内のブロックを再利用する新たなアプローチを提案する。この手法により、リソース制約を満たしつつ、認識精度の低下を伴わないモデル実装が可能となる。具体的には、パラメータの利用効率を高めるため、音声Transformer向けに新しいブロック再利用戦略(BRST: Block-Reusing Strategy for Speech Transformer)を設計し、各再利用ブロックに付随するわずかな追加学習可能パラメータで、コンパクトかつ柔軟なモデルを構築可能なアダプタモジュール(ADM: Adapter Module)を提案する。本手法を公開データセットであるAISHELL-1コーパスを用いて実験した結果、ADMを用いない場合、7.6Mパラメータで文字誤り率(CER)が9.3%、ADMを用いる場合、8.3MパラメータでCERが6.63%を達成した。さらに、ADMが一般的なブロック再利用手法における効果を深く分析することで、その有効性を実証した。