HyperAIHyperAI
vor 17 Tagen

ReAct: Synergie von Reasoning und Acting in Sprachmodellen

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
ReAct: Synergie von Reasoning und Acting in Sprachmodellen
Abstract

Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten im Bereich der Sprachverstehens und interaktiven Entscheidungsfindung gezeigt haben, wurden ihre Fähigkeiten im Bereich des Schlussfolgerns (z. B. Chain-of-Thought-Prompting) und des Handelns (z. B. Planerzeugung für Aktionen) bisher vorwiegend getrennt voneinander untersucht. In diesem Paper untersuchen wir den Einsatz von LLMs zur gleichzeitigen, abwechselnden Generierung von Schlussfolgerungstrajektorien und aufgabenbezogenen Aktionen, wodurch eine stärkere Synergie zwischen beiden Komponenten erreicht wird: Schlussfolgerungstrajektorien helfen dem Modell dabei, Aktionen zu induzieren, zu verfolgen und zu aktualisieren sowie Ausnahmesituationen zu bewältigen, während Aktionen es ermöglichen, mit externen Quellen wie Wissensbasen oder Umgebungen zu interagieren, um zusätzliche Informationen zu beschaffen. Wir wenden unseren Ansatz, der als ReAct bezeichnet wird, auf eine Vielzahl von Sprach- und Entscheidungsaufgaben an und zeigen, dass er gegenüber aktuellen State-of-the-Art-Baselines effektiver ist, zudem menschliche Interpretierbarkeit und Vertrauenswürdigkeit gegenüber Methoden ohne Schlussfolgerungs- oder Handlungsmechanismen verbessert. Konkret überwindet ReAct auf Aufgaben zum Fragenbeantworten (HotpotQA) und Faktüberprüfung (Fever) Probleme wie Halluzinationen und Fehlerfortpflanzung, die bei reinen Chain-of-Thought-Verfahren häufig auftreten, indem es mit einer einfachen Wikipedia-API interagiert. Dabei generiert ReAct menschenähnliche Lösungstrajektorien, die interpretierbarer sind als die von Baselines ohne Schlussfolgerungstrajektorien. Auf zwei interaktiven Entscheidungsbenchmark-Aufgaben (ALFWorld und WebShop) erreicht ReAct eine absolute Steigerung der Erfolgsrate um 34 % bzw. 10 % gegenüber Imitations- und Reinforcement-Learning-Methoden, wobei lediglich ein oder zwei Beispiele im Kontext verwendet werden. Projektwebsite mit Code: https://react-lm.github.io