Command Palette

Search for a command to run...

한 달 전

SHANKS: 말하는 언어 모델을 위한 동시 청취와 사고

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

SHANKS: 말하는 언어 모델을 위한 동시 청취와 사고

초록

현재의 대규모 언어 모델(LLM)과 음성 언어 모델(SLM)은 사용자가 자신의 발화를 완료한 후에야 비로소 사고를 시작하고 행동을 취한다. 이로 인해 사용자의 발화 중간에 모델이 상호작용할 수 없으며, 사고를 위해 전체 입력을 기다리는 과정에서 높은 응답 지연이 발생할 수 있다. 결과적으로, 전체 입력을 수신한 후에 사고를 수행하는 방식은 실시간·저지연 상호작용이 중요한 음성 대 음성 대화 환경에는 적합하지 않다. 본 연구에서는 인간이 자연스럽게 ‘들으면서 사고한다’는 점에 주목하여, 이 문제를 해결한다. 본 논문에서는 사용자 입력을 듣는 도중에도 말하지 않은 사고 체인(Chain-of-Thought)을 생성할 수 있도록 하는 일반적인 추론 프레임워크 SHANKS를 제안한다. SHANKS는 입력 음성을 고정된 시간 간격의 청크 단위로 스트리밍하며, 각 청크가 수신되는 즉시 이전까지의 음성과 사고 내용을 기반으로 말하지 않은 사고를 생성한다. 이 과정에서 사용자는 계속해서 발화를 진행 중이다. SHANKS는 이러한 말하지 않은 사고를 활용해 사용자를 중단할지 여부를 결정하고, 작업을 완료하기 위한 도구 호출을 수행한다. 우리는 SHANKS가 두 가지 시나리오에서 실시간 사용자-SLM 상호작용을 향상시킴을 입증하였다. (1) 사용자가 수학 문제에 대해 단계별로 해결책을 제시하는 상황에서는, SHANKS가 듣고 사고한 뒤 사용자가 오류를 범했을 때 적절히 중단할 수 있으며, 사고 없이 중단하는 기준 모델 대비 37.1% 높은 중단 정확도를 달성한다. (2) 도구 보강형 대화 상황에서는 사용자가 자신의 발화를 완료하기 전에 총 도구 호출의 56.9%를 완료할 수 있다. 종합적으로, SHANKS는 발화 종료 후가 아니라 대화 전반에 걸쳐 지속적으로 사고하는 모델의 구현에 한 걸음 더 다가서는 기여를 한다. SHANKS의 애니메이션 시각화는 다음 링크에서 확인할 수 있다: https://d223302.github.io/SHANKS/

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp