Command Palette

Search for a command to run...

1ヶ月前

StableToken:耐ノイズ性を備えた意味的音声トークナイザーによる強靭な音声LLMの実現

Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

StableToken:耐ノイズ性を備えた意味的音声トークナイザーによる強靭な音声LLMの実現

要約

一般的な意味的音声トークナイザーは、言語的コンテンツを捉えることを目的として設計されているが、驚くべきことに脆弱である。本研究では、意味的に無関係な音響的摂動に対して堅牢性が低いことを発見した。信号対雑音比(SNR)が高く、音声が完全に理解可能であっても、これらのトークナイザーの出力トークン列は大きく変化するため、下流の大規模言語モデル(LLM)の学習負荷が増大する。この不安定性の原因は、二つの欠陥に起因する。第一に、単一経路による量子化構造が脆く、第二に、中間的なトークンの安定性を無視した遠隔的な学習信号である。この問題に対処するため、本研究では「StableToken」という新しいトークナイザーを提案する。StableTokenは、コンセンサスに基づくメカニズムにより安定性を実現する。そのマルチブランチ構造により音声を並列処理し、強力なビット単位の投票機構によって得られた表現を統合することで、一貫性の高い安定したトークン列を生成する。StableTokenは、多様な雑音条件下において、ユニット編集距離(UED)を大幅に低減し、トークンの安定性において新たな最先端水準を達成した。この基盤的な安定性は、下流のタスクに直接的な利点をもたらし、さまざまなタスクにおいて音声大規模言語モデル(SpeechLLM)の堅牢性を著しく向上させた。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
StableToken:耐ノイズ性を備えた意味的音声トークナイザーによる強靭な音声LLMの実現 | 論文 | HyperAI超神経