Command Palette

Search for a command to run...

1 个月前

SHANKS:用于语音语言模型的同步听与思

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

SHANKS:用于语音语言模型的同步听与思

摘要

当前的大语言模型(LLMs)和语音语言模型(SLMs)只有在用户完成发言后才开始思考并采取行动。这种机制导致模型无法在用户发言过程中进行交互,且在等待推理时会产生较高的响应延迟。因此,在语音到语音的交互场景中,这种“接收完整输入后再思考”的方式并不合适,因为此类场景对实时性与低延迟交互具有较高要求。为解决这一问题,我们注意到人类在听讲时自然会“边听边思考”。本文提出SHANKS——一种通用的推理框架,使SLMs能够在接收用户语音输入的同时,生成未言出的思维链(chain-of-thought)推理过程。SHANKS将输入语音以固定时长的片段进行流式传输,一旦接收到一个片段,便立即基于此前的所有语音内容与推理结果,生成相应的未言出推理,而无需等待用户发言结束。利用这些未言出的推理,SHANKS可判断是否应打断用户发言,并决定是否调用工具以完成任务。我们通过两个场景验证了SHANKS在提升实时人机交互方面的有效性:(1)当用户逐步讲解数学问题的解题过程时,SHANKS能够实时倾听、推理,并在用户出现错误时及时打断,其打断准确率比仅在不思考的情况下打断的基线方法高出37.1%;(2)在工具增强型对话中,SHANKS可在用户完成发言前完成56.9%的工具调用。总体而言,SHANKS推动了语言模型向“全程持续思考”的方向发展,而不仅限于对话回合结束之后。SHANKS的动态演示图示可访问:https://d223302.github.io/SHANKS/

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供