4ヶ月前

概要

一般的な意味的音声トークナイザーは、言語的コンテンツを捉えることを目的として設計されているが、驚くべきことに脆弱である。本研究では、意味的に無関係な音響的摂動に対して堅牢性が低いことを発見した。信号対雑音比（SNR）が高く、音声が完全に理解可能であっても、これらのトークナイザーの出力トークン列は大きく変化するため、下流の大規模言語モデル（LLM）の学習負荷が増大する。この不安定性の原因は、二つの欠陥に起因する。第一に、単一経路による量子化構造が脆く、第二に、中間的なトークンの安定性を無視した遠隔的な学習信号である。この問題に対処するため、本研究では「StableToken」という新しいトークナイザーを提案する。StableTokenは、コンセンサスに基づくメカニズムにより安定性を実現する。そのマルチブランチ構造により音声を並列処理し、強力なビット単位の投票機構によって得られた表現を統合することで、一貫性の高い安定したトークン列を生成する。StableTokenは、多様な雑音条件下において、ユニット編集距離（UED）を大幅に低減し、トークンの安定性において新たな最先端水準を達成した。この基盤的な安定性は、下流のタスクに直接的な利点をもたらし、さまざまなタスクにおいて音声大規模言語モデル（SpeechLLM）の堅牢性を著しく向上させた。

ソースPDF