Command Palette
Search for a command to run...
Jupiter: Verbesserung der Datenanalysefähigkeit von LLMs durch Notizbuch- und inferenzzeitbasierte wertegesteuerte Suche
Shuocheng Li Yihao Liu Silin Du Wenxuan Zeng Zhe Xu, et al

Abstract
Große Sprachmodelle (LLMs) haben großes Potenzial bei der Automatisierung von Data-Science-Arbeitsabläufen gezeigt, doch bestehen bei bestehenden Modellen weiterhin Schwierigkeiten hinsichtlich mehrschrittiger Schlussfolgerungen und der Nutzung von Tools, was ihre Wirksamkeit bei komplexen Analysen einschränkt. Um dieses Problem anzugehen, stellen wir eine skalierbare Pipeline vor, die hochwertige, toolbasierte Datenanalyseaufgaben sowie ausführbare mehrschrittige Lösungen aus realen Jupyter-Notebooks und zugehörigen Datenfiles extrahiert. Mittels dieser Pipeline führen wir NbQA ein – eine großskalige Datensammlung standardisierter Aufgabe-Lösungspaare, die authentische Tool-Nutzungsmuster in praktischen Data-Science-Szenarien widerspiegeln. Um die Fähigkeit mehrschrittiger Schlussfolgerungen weiter zu verbessern, präsentieren wir Jupiter, einen Rahmen, der die Datenanalyse als Suchproblem formuliert und Monte-Carlo-Baum-Suche (MCTS) einsetzt, um vielfältige Lösungstrajektorien für das Lernen von Wertmodellen zu generieren. Während der Inferenz kombiniert Jupiter das Wertmodell mit der Anzahl der Knotenbesuche, um effizient ausführbare mehrschrittige Pläne mit minimalen Suchschritten zu erzeugen. Experimentelle Ergebnisse zeigen, dass die Modelle Qwen2.5-7B und 14B-Instruct auf NbQA jeweils 77,82 % bzw. 86,38 % der Aufgaben auf InfiAgent-DABench lösen – was dem Leistungsniveau von GPT-4o oder fortschrittlichen Agentenframeworks entspricht oder es sogar übertrifft. Zusätzliche Evaluierungen belegen eine verbesserte Generalisierungsfähigkeit und eine stärkere Fähigkeit zur Tool-basierten Schlussfolgerung bei vielfältigen mehrschrittigen Reasoning-Aufgaben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.