HyperAIHyperAI

Command Palette

Search for a command to run...

Speechformer:直接音声翻訳における情報損失の低減

Sara Papi Marco Gaido Matteo Negri Marco Turchi

概要

Transformerベースのモデルは、音声翻訳を含む多くの研究分野で最先端の性能を達成しており、その人気が高まっています。しかし、Transformerの計算複雑度は入力シーケンス長に対して二次関数的に増加するため、通常長いシーケンスで表現される音声信号に対してそのまま適用することは困難です。現在の解決策は、原始的な音声特徴量を固定されたサンプリングに基づいて初期的に非最適な圧縮を行うものであり、その結果、上位層において有用な言語情報が失われてしまう可能性があります。この問題を解決するため、本研究では「Speechformer」という新規アーキテクチャを提案します。本アーキテクチャは、注意機構(attention layer)におけるメモリ使用量を低減することで、初期の損失を伴う圧縮を回避し、より情報に基づいた言語学的基準に従って高レベルでのみ情報を集約します。3つの言語ペア(en→de/es/nl)を対象とした実験の結果、提案手法の有効性が確認され、標準的なMuST-Cコーパスでは最大0.8のBLEUスコア向上が達成され、リソースが限られた環境では最大4.0のBLEUスコア向上が見られました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Speechformer:直接音声翻訳における情報損失の低減 | 記事 | HyperAI超神経