Command Palette
Search for a command to run...
SHANKS : Audition et pensée simultanées pour les modèles de langage parlé
Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé
Les grands modèles linguistiques (LLM) et les modèles de langage parlé (SLM) ne commencent à réfléchir ni à agir qu’après la fin du tour de l’utilisateur. Cette contrainte empêche le modèle d’interagir pendant que l’utilisateur parle, et peut entraîner un délai de réponse élevé pendant qu’il attend pour réfléchir. En conséquence, la réflexion après réception de l’entrée complète n’est pas adaptée aux interactions vocales en temps réel, où l’échange rapide et à faible latence est essentiel. Nous abordons ce problème en observant que les humains réfléchissent naturellement « pendant qu’ils écoutent ». Dans cet article, nous proposons SHANKS, un cadre d’inférence général qui permet aux SLM de générer une chaîne de raisonnement implicite pendant qu’ils écoutent l’entrée vocale de l’utilisateur. SHANKS traite l’entrée vocale en tranches de durée fixe, et dès qu’une tranche est reçue, il génère une réflexion implicite fondée sur l’ensemble des paroles et des raisonnements précédents, tandis que l’utilisateur continue de parler. Cette réflexion implicite permet à SHANKS de décider s’il doit interrompre l’utilisateur ou effectuer des appels à des outils afin de mener à bien la tâche. Nous démontrons que SHANKS améliore l’interaction en temps réel entre l’utilisateur et le SLM dans deux scénarios : (1) lorsqu’un utilisateur présente une solution étape par étape à un problème mathématique, SHANKS peut écouter, raisonner et interrompre en cas d’erreur, atteignant une précision d’interruption supérieure de 37,1 % par rapport à une méthode de référence qui interrompt sans réfléchir ; (2) dans une interaction enrichie par des outils, SHANKS parvient à effectuer 56,9 % des appels à des outils avant que l’utilisateur n’ait terminé son tour. Globalement, SHANKS représente une avancée vers des modèles capables de réfléchir continuellement tout au long de la conversation, et non seulement après la fin d’un tour. Des illustrations animées de SHANKS sont disponibles à l’adresse suivante : https://d223302.github.io/SHANKS/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.