
要約
Transformerベースのモデルは、音声翻訳を含む多くの研究分野で最先端の性能を達成しており、その人気が高まっています。しかし、Transformerの計算複雑度は入力シーケンス長に対して二次関数的に増加するため、通常長いシーケンスで表現される音声信号に対してそのまま適用することは困難です。現在の解決策は、原始的な音声特徴量を固定されたサンプリングに基づいて初期的に非最適な圧縮を行うものであり、その結果、上位層において有用な言語情報が失われてしまう可能性があります。この問題を解決するため、本研究では「Speechformer」という新規アーキテクチャを提案します。本アーキテクチャは、注意機構(attention layer)におけるメモリ使用量を低減することで、初期の損失を伴う圧縮を回避し、より情報に基づいた言語学的基準に従って高レベルでのみ情報を集約します。3つの言語ペア(en→de/es/nl)を対象とした実験の結果、提案手法の有効性が確認され、標準的なMuST-Cコーパスでは最大0.8のBLEUスコア向上が達成され、リソースが限られた環境では最大4.0のBLEUスコア向上が見られました。