il y a 4 mois

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

Les grands modèles linguistiques (LLM) et les modèles de langage parlé (SLM) ne commencent à réfléchir ni à agir qu’après la fin du tour de l’utilisateur. Cette contrainte empêche le modèle d’interagir pendant que l’utilisateur parle, et peut entraîner un délai de réponse élevé pendant qu’il attend pour réfléchir. En conséquence, la réflexion après réception de l’entrée complète n’est pas adaptée aux interactions vocales en temps réel, où l’échange rapide et à faible latence est essentiel. Nous abordons ce problème en observant que les humains réfléchissent naturellement « pendant qu’ils écoutent ». Dans cet article, nous proposons SHANKS, un cadre d’inférence général qui permet aux SLM de générer une chaîne de raisonnement implicite pendant qu’ils écoutent l’entrée vocale de l’utilisateur. SHANKS traite l’entrée vocale en tranches de durée fixe, et dès qu’une tranche est reçue, il génère une réflexion implicite fondée sur l’ensemble des paroles et des raisonnements précédents, tandis que l’utilisateur continue de parler. Cette réflexion implicite permet à SHANKS de décider s’il doit interrompre l’utilisateur ou effectuer des appels à des outils afin de mener à bien la tâche. Nous démontrons que SHANKS améliore l’interaction en temps réel entre l’utilisateur et le SLM dans deux scénarios : (1) lorsqu’un utilisateur présente une solution étape par étape à un problème mathématique, SHANKS peut écouter, raisonner et interrompre en cas d’erreur, atteignant une précision d’interruption supérieure de 37,1 % par rapport à une méthode de référence qui interrompt sans réfléchir ; (2) dans une interaction enrichie par des outils, SHANKS parvient à effectuer 56,9 % des appels à des outils avant que l’utilisateur n’ait terminé son tour. Globalement, SHANKS représente une avancée vers des modèles capables de réfléchir continuellement tout au long de la conversation, et non seulement après la fin d’un tour. Des illustrations animées de SHANKS sont disponibles à l’adresse suivante : https://d223302.github.io/SHANKS/

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Traitement Audio Et Vocal

Interaction Homme-Machine

Traitement Du Langage Naturel

Domaine De Recherche

Traitement Du Langage Naturel

Audio

Tâche

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Traitement Audio Et Vocal

Interaction Homme-Machine

Traitement Du Langage Naturel

Domaine De Recherche

Traitement Du Langage Naturel

Audio

Tâche

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SHANKS : Audition et pensée simultanées pour les modèles de langage parlé

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SHANKS : Audition et pensée simultanées pour les modèles de langage parlé

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SHANKS : Audition et pensée simultanées pour les modèles de langage parlé

Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters