Command Palette

Search for a command to run...

1ヶ月前

SHANKS:音声言語モデルにおける同時聴取と思考

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

SHANKS:音声言語モデルにおける同時聴取と思考

要約

現在の大型言語モデル(LLM)および音声言語モデル(SLM)は、ユーザーの発話が完全に終了してからようやく思考を開始し、応答を生成する。このため、ユーザーの発話中にモデルが対話に参加できず、思考を待つ間に応答遅延が発生する。結果として、ユーザーの発話が終わってから思考を行う方式は、リアルタイムかつ低遅延な音声対音声対話においては不適切である。本研究では、人間が自然に「聞くときに同時に考える」ことに着目し、この問題を解決する。本論文では、SLMがユーザーの入力を聴いている間に「声に出さない連鎖的思考(chain-of-thought)」を生成できる汎用推論フレームワーク「SHANKS」を提案する。SHANKSは入力音声を固定時間幅のチャンクに分割してストリーミングし、各チャンクが受信され次第、これまでの音声および思考情報をすべて活用して、ユーザーが発話を続ける間に「声に出さない思考」を生成する。この未発話の思考を用いて、ユーザーの発話を中断すべきかどうかを判断し、タスクを完了するためのツール呼び出しを行う。実験により、SHANKSが2つのシナリオにおいてリアルタイムなユーザー–SLM対話の質を向上させることを示した。(1)数学問題のステップバイステップな解法を提示する場面では、SHANKSはユーザーの発話を聴き、思考し、誤りを指摘して中断できる。この場合、思考を行わないベースラインと比較して、中断の正確性が37.1%向上した。(2)ツール拡張型対話においては、ユーザーの発話が終了する前に、SHANKSが56.9%のツール呼び出しを完了できた。総合的に、SHANKSは会話の途中でも常に思考を続けるモデルの実現に向けた重要な一歩を示している。SHANKSのアニメーション解説は、https://d223302.github.io/SHANKS/ にてご確認いただけます。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています