2ヶ月前

LAST: 言語モデルを意識した音声トークン化

Arnon Turetzky; Yossi Adi
LAST: 言語モデルを意識した音声トークン化
要約

音声トークン化は、音声言語モデル(LM)の基礎となり、話された言語モデリング、テキストから音声への変換、音声からテキストへの変換などの様々なタスクを可能にします。ほとんどの音声トークナイザーは、LMの学習プロセスとは独立して訓練され、個別の音響モデルと量子化手法に依存しています。このようなアプローチを採用すると、トークン化プロセスとその後の使用との間に不整合が生じる可能性があります。本研究では、事前学習済みのテキストLMからの目的関数を活用することで、新しい音声トークナイザーの訓練方法を提案します。私たちはこの目的関数を離散的な音声表現の学習過程に統合することを提唱しています。目標は、事前学習済みの音声モデルから得られる特徴量を新たな特徴空間に変換し、音声LMにとってより良いクラスタリングを実現することです。私たちは実験的に異なるモデル設計選択肢(例えば、音声ボキャブラリーのサイズやテキストLMのサイズ)が及ぼす影響を探求しました。結果は、提案されたトークン化手法が話された言語モデリングおよび音声からテキストへの変換において評価したベースラインを超えることを示しています。さらに重要なのは、これまでの研究とは異なり、提案手法は単一の事前学習済みLMを使用して音声とテキスト両方の入力を処理できることで、従来のトークン化アプローチとは一線を画していることです。