Command Palette
Search for a command to run...
Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

초록
현재의 대규모 언어 모델(LLM)과 음성 언어 모델(SLM)은 사용자가 자신의 발화를 완료한 후에야 비로소 사고를 시작하고 행동을 취한다. 이로 인해 사용자의 발화 중간에 모델이 상호작용할 수 없으며, 사고를 위해 전체 입력을 기다리는 과정에서 높은 응답 지연이 발생할 수 있다. 결과적으로, 전체 입력을 수신한 후에 사고를 수행하는 방식은 실시간·저지연 상호작용이 중요한 음성 대 음성 대화 환경에는 적합하지 않다. 본 연구에서는 인간이 자연스럽게 ‘들으면서 사고한다’는 점에 주목하여, 이 문제를 해결한다. 본 논문에서는 사용자 입력을 듣는 도중에도 말하지 않은 사고 체인(Chain-of-Thought)을 생성할 수 있도록 하는 일반적인 추론 프레임워크 SHANKS를 제안한다. SHANKS는 입력 음성을 고정된 시간 간격의 청크 단위로 스트리밍하며, 각 청크가 수신되는 즉시 이전까지의 음성과 사고 내용을 기반으로 말하지 않은 사고를 생성한다. 이 과정에서 사용자는 계속해서 발화를 진행 중이다. SHANKS는 이러한 말하지 않은 사고를 활용해 사용자를 중단할지 여부를 결정하고, 작업을 완료하기 위한 도구 호출을 수행한다. 우리는 SHANKS가 두 가지 시나리오에서 실시간 사용자-SLM 상호작용을 향상시킴을 입증하였다. (1) 사용자가 수학 문제에 대해 단계별로 해결책을 제시하는 상황에서는, SHANKS가 듣고 사고한 뒤 사용자가 오류를 범했을 때 적절히 중단할 수 있으며, 사고 없이 중단하는 기준 모델 대비 37.1% 높은 중단 정확도를 달성한다. (2) 도구 보강형 대화 상황에서는 사용자가 자신의 발화를 완료하기 전에 총 도구 호출의 56.9%를 완료할 수 있다. 종합적으로, SHANKS는 발화 종료 후가 아니라 대화 전반에 걸쳐 지속적으로 사고하는 모델의 구현에 한 걸음 더 다가서는 기여를 한다. SHANKS의 애니메이션 시각화는 다음 링크에서 확인할 수 있다: https://d223302.github.io/SHANKS/