HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンド音声言語理解のための2段階テキスト知識蒸留

Seongbin Kim Gyuwan Kim Seongjin Shin Sangmin Lee

概要

エンドツーエンドアプローチは、従来のパイプライン型システムの欠点を軽減することで、より正確かつ効率的な音声言語理解(SLU)システムの実現に新たな道を開く。これまでの研究では、自動音声認識(ASR)による事前学習や知識蒸留(knowledge distillation)による微調整を通じて、SLUモデルがテキスト情報を活用してきた。本研究では、より効果的にテキスト情報を活用するため、事前学習および微調整の各段階で、二段階にわたるテキスト知識蒸留手法を提案する。この手法は、各モダリティ(音声・テキスト)の発話レベル表現および予測ログィットを逐次的に一致させるものである。音声エンコーダとして、汎用性と豊富な特徴を捉えられるvq-wav2vec BERTを採用した。さらに、離散音声トークンおよび文脈化された隠れ表現に対してランダムにスパンをマスキングするデータ拡張手法を導入することで、特にリソースが限られた環境下でも性能を向上させた。その結果、Fluent Speech Commandsデータセットにおいて、フルデータ設定で99.7%、10%サブセット設定で99.5%のテスト精度を達成し、現状における最良の性能を実現した。アブレーションスタディを通じて、使用したすべての手法が最終的な性能に不可欠であることを実証的に確認し、音声言語理解における最良の実践法を提示した。コードはhttps://github.com/clovaai/textual-kd-sluにて公開されている


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています