HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Shuocheng Li Yihao Liu Silin Du Wenxuan Zeng Zhe Xu, et al

Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche

Abstract

Große Sprachmodelle (LLMs) haben großes Potenzial bei der Automatisierung von Data-Science-Arbeitsabläufen gezeigt, doch bestehen bei bestehenden Modellen weiterhin Schwierigkeiten hinsichtlich mehrschrittiger Schlussfolgerungen und der Nutzung von Tools, was ihre Wirksamkeit bei komplexen Analysen einschränkt. Um dieses Problem anzugehen, stellen wir eine skalierbare Pipeline vor, die hochwertige, toolbasierte Datenanalyseaufgaben sowie ausführbare mehrschrittige Lösungen aus realen Jupyter-Notebooks und zugehörigen Datenfiles extrahiert. Mittels dieser Pipeline führen wir NbQA ein – eine großskalige Datensammlung standardisierter Aufgabe-Lösungspaare, die authentische Tool-Nutzungsmuster in praktischen Data-Science-Szenarien widerspiegeln. Um die Fähigkeit mehrschrittiger Schlussfolgerungen weiter zu verbessern, präsentieren wir Jupiter, einen Rahmen, der die Datenanalyse als Suchproblem formuliert und Monte-Carlo-Baum-Suche (MCTS) einsetzt, um vielfältige Lösungstrajektorien für das Lernen von Wertmodellen zu generieren. Während der Inferenz kombiniert Jupiter das Wertmodell mit der Anzahl der Knotenbesuche, um effizient ausführbare mehrschrittige Pläne mit minimalen Suchschritten zu erzeugen. Experimentelle Ergebnisse zeigen, dass die Modelle Qwen2.5-7B und 14B-Instruct auf NbQA jeweils 77,82 % bzw. 86,38 % der Aufgaben auf InfiAgent-DABench lösen – was dem Leistungsniveau von GPT-4o oder fortschrittlichen Agentenframeworks entspricht oder es sogar übertrifft. Zusätzliche Evaluierungen belegen eine verbesserte Generalisierungsfähigkeit und eine stärkere Fähigkeit zur Tool-basierten Schlussfolgerung bei vielfältigen mehrschrittigen Reasoning-Aufgaben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche | Forschungsarbeiten | HyperAI