vor 6 Monaten

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan

Zusammenfassung

Neuere Fortschritte bei großen Sprachmodellen (LLMs) wie GPT-4 und PaLM-2 haben erhebliche Fortschritte bei der Bewältigung mathematischer Schlussfolgerungsprobleme ermöglicht. Insbesondere die neueste Version von GPT-4 von OpenAI, bekannt als GPT-4 Code Interpreter, zeigt bemerkenswerte Leistungsfähigkeit auf anspruchsvollen mathematischen Datensätzen. In dieser Arbeit untersuchen wir den Einfluss von Code auf die Verbesserung der Schlussfolgerungsfähigkeit von LLMs, indem wir unterschiedliche Einschränkungen bezüglich der \textit{Code-Nutzungshäufigkeit} des GPT-4 Code Interpreter einführen. Wir stellen fest, dass sein Erfolg weitgehend auf seinen ausgeprägten Fähigkeiten beruht, Code zu generieren und auszuführen, die Ausgabe der Codeausführung zu bewerten und seine Lösung zu korrigieren, wenn unvernünftige Ergebnisse erzielt werden. Auf der Grundlage dieser Erkenntnis schlagen wir eine neuartige und effektive Prompting-Methode vor, explizite \uline{c}odebasierte \uline{s}elf-\uline{v}erifikation~(CSV), um das mathematische Schlussfolgerungspotenzial des GPT-4 Code Interpreter weiter zu steigern. Diese Methode verwendet ein Zero-shot-Prompt, um den GPT-4 Code Interpreter dazu zu bringen, Code einzusetzen, um seine Antworten selbst zu überprüfen. Falls der Überprüfungsstatus als „False“ registriert wird, korrigiert das Modell seine Lösung automatisch – analog unserem Vorgehen bei der Fehlerkorrektur während einer Mathematikprüfung. Darüber hinaus erkennen wir, dass die Zustände der Überprüfungsresultate die Zuverlässigkeit einer Lösung widerspiegeln, was die Effektivität von Majority Voting verbessern kann. Mit dem GPT-4 Code Interpreter und der CSV-Methode erreichen wir eine beeindruckende Zero-shot-Accuracy auf dem MATH-Datensatz \textbf{(53,9% $\to$ 84,3%)}.Hinweis: Die Übersetzung wurde unter Berücksichtigung der fachsprachlichen Genauigkeit, der flüssigen deutschen Satzstruktur und des formellen, wissenschaftlichen Stils für technische und akademische Kontexte erstellt. Fachbegriffe wie „Zero-shot-Prompt“, „self-verification“ und „majority voting“ wurden konsistent und gängigen deutschen Fachtermini entsprechend übersetzt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Lösen herausfordernder mathematischer Textaufgaben mit dem GPT-4 Code Interpreter unter Verwendung von codebasierter Selbstüberprüfung

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lösen herausfordernder mathematischer Textaufgaben mit dem GPT-4 Code Interpreter unter Verwendung von codebasierter Selbstüberprüfung

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lösen herausfordernder mathematischer Textaufgaben mit dem GPT-4 Code Interpreter unter Verwendung von codebasierter Selbstüberprüfung

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan

Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo Zipeng Qin Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan