Command Palette
Search for a command to run...
Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

초록
일반적으로 언어적 의미를 효과적으로 포착하도록 설계된 의미 기반 음성 토큰화기들은 예상과 달리 취약하다. 우리는 이러한 토큰화기가 의미와 무관한 음성적 왜곡에 대해 강건하지 않음을 발견했다. 신호 대 잡음비(Signal-to-Noise Ratio, SNR)가 매우 높아 음성이 완전히 이해 가능할지라도, 출력되는 토큰 시퀀스가 급격히 변화할 수 있으며, 이는 하류 대규모 언어모델(LLM)의 학습 부담을 증가시킨다. 이러한 불안정성은 두 가지 결함에서 기인한다. 첫째, 취약한 단일 경로 양자화 아키텍처이며, 둘째, 중간 단계의 토큰 안정성에 무관한 원격한 학습 신호이다. 이를 해결하기 위해 우리는 공감 기반 메커니즘을 통해 안정성을 달성하는 StableToken을 제안한다. 이 토큰화기는 다중 경로 아키텍처를 통해 오디오를 병렬로 처리하며, 강력한 비트 단위 투표 메커니즘을 통해 각 경로의 표현을 융합하여 하나의 안정적인 토큰 시퀀스를 생성한다. StableToken은 다양한 노이즈 환경에서 단위 편집 거리(Unit Edit Distance, UED)를 크게 감소시켜 토큰 안정성 측면에서 새로운 최고 수준의 성능을 달성했다. 이러한 기초적인 안정성은 하류 작업으로 직접 이어지며, 다양한 과제에서 음성 기반 대규모 언어모델(SpeechLLMs)의 강건성(robustness)을 크게 향상시킨다.