vor 6 Monaten

Zusammenfassung

Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten im Bereich der Sprachverstehens und interaktiven Entscheidungsfindung gezeigt haben, wurden ihre Fähigkeiten im Bereich des Schlussfolgerns (z. B. Chain-of-Thought-Prompting) und des Handelns (z. B. Planerzeugung für Aktionen) bisher vorwiegend getrennt voneinander untersucht. In diesem Paper untersuchen wir den Einsatz von LLMs zur gleichzeitigen, abwechselnden Generierung von Schlussfolgerungstrajektorien und aufgabenbezogenen Aktionen, wodurch eine stärkere Synergie zwischen beiden Komponenten erreicht wird: Schlussfolgerungstrajektorien helfen dem Modell dabei, Aktionen zu induzieren, zu verfolgen und zu aktualisieren sowie Ausnahmesituationen zu bewältigen, während Aktionen es ermöglichen, mit externen Quellen wie Wissensbasen oder Umgebungen zu interagieren, um zusätzliche Informationen zu beschaffen. Wir wenden unseren Ansatz, der als ReAct bezeichnet wird, auf eine Vielzahl von Sprach- und Entscheidungsaufgaben an und zeigen, dass er gegenüber aktuellen State-of-the-Art-Baselines effektiver ist, zudem menschliche Interpretierbarkeit und Vertrauenswürdigkeit gegenüber Methoden ohne Schlussfolgerungs- oder Handlungsmechanismen verbessert. Konkret überwindet ReAct auf Aufgaben zum Fragenbeantworten (HotpotQA) und Faktüberprüfung (Fever) Probleme wie Halluzinationen und Fehlerfortpflanzung, die bei reinen Chain-of-Thought-Verfahren häufig auftreten, indem es mit einer einfachen Wikipedia-API interagiert. Dabei generiert ReAct menschenähnliche Lösungstrajektorien, die interpretierbarer sind als die von Baselines ohne Schlussfolgerungstrajektorien. Auf zwei interaktiven Entscheidungsbenchmark-Aufgaben (ALFWorld und WebShop) erreicht ReAct eine absolute Steigerung der Erfolgsrate um 34 % bzw. 10 % gegenüber Imitations- und Reinforcement-Learning-Methoden, wobei lediglich ein oder zwei Beispiele im Kontext verwendet werden. Projektwebsite mit Code: https://react-lm.github.io

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Reasoning

Retrieval-Augmented Generation

Verstärkendes Lernen

Ansatz/Rahmenwerk

Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Reasoning

Retrieval-Augmented Generation

Verstärkendes Lernen

Ansatz/Rahmenwerk

Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

ReAct: Synergie von Reasoning und Acting in Sprachmodellen | Paper | HyperAI

Command Palette

ReAct: Synergie von Reasoning und Acting in Sprachmodellen

Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReAct: Synergie von Reasoning und Acting in Sprachmodellen

Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReAct: Synergie von Reasoning und Acting in Sprachmodellen

Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters