Command Palette
Search for a command to run...
SHANKS: Simultane Wahrnehmung und Denken für Sprachmodelle
Cheng-Han Chiang Xiaofei Wang Linjie Li Chung-Ching Lin Kevin Lin Shujie Liu Zhendong Wang Zhengyuan Yang Hung-yi Lee Lijuan Wang

Abstract
Aktuelle große Sprachmodelle (Large Language Models, LLMs) und gesprochene Sprachmodelle (Spoken Language Models, SLMs) beginnen erst dann mit dem Denken und der Ausführung von Aktionen, wenn der Benutzer seine Äußerung abgeschlossen hat. Dies verhindert eine Interaktion während der Benutzeräußerung und führt zu hoher Antwortverzögerung, da das Modell auf die vollständige Eingabe warten muss, bevor es reagieren kann. Daher ist das Denken erst nach Erhalt der gesamten Eingabe für Sprache-zu-Sprache-Interaktionen ungeeignet, bei denen eine Echtzeitkommunikation mit geringer Latenz von entscheidender Bedeutung ist. Wir adressieren dieses Problem, indem wir beobachten, dass Menschen natürlich „während des Zuhörens denken“. In diesem Paper stellen wir SHANKS vor, einen allgemeinen Inferenzframework, der es SLMs ermöglicht, unausgesprochene Ketten von Gedanken (chain-of-thought) während des Zuhörens der Benutzereingabe zu generieren. SHANKS streamt die Spracheingabe in festen Zeitintervallen und generiert bereits, sobald ein Chunk empfangen wurde, unausgesprochene Schlussfolgerungen basierend auf allen vorherigen Spracheingaben und bereits generierten Gedanken – während der Benutzer weiter spricht. Diese unausgesprochenen Überlegungen nutzt SHANKS, um zu entscheiden, ob der Benutzer unterbrochen werden soll, und um Werkzeugaufrufe zur Aufgabenerfüllung durchzuführen. Wir zeigen, dass SHANKS die Echtzeit-Interaktion zwischen Benutzer und SLM in zwei Szenarien erheblich verbessert: (1) Bei der schrittweisen Darstellung einer mathematischen Lösung kann SHANKS zuhören, überlegen und bei einem Fehler des Benutzers unterbrechen, wobei die Unterbrechungsgenauigkeit um 37,1 % gegenüber einem Baseline-Modell, das ohne vorheriges Denken unterbricht, steigt; (2) In einer Werkzeug-erweiterten Dialogsituation kann SHANKS 56,9 % der Werkzeugaufrufe bereits vor Abschluss der Benutzeräußerung abschließen. Insgesamt bringt SHANKS Modelle näher an eine kontinuierliche Denkprozess-Strategie, bei der das Modell nicht nur nach Beendigung einer Äußerung, sondern während des gesamten Gesprächs weiterdenkt. Animierte Illustrationen zu SHANKS finden sich unter: https://d223302.github.io/SHANKS/
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.