Command Palette
Search for a command to run...
DeepAnalyze: Agente große Sprachmodelle für autonome Datenwissenschaft
Shaolei Zhang Ju Fan Meihao Fan Guoliang Li Xiaoyong Du

Abstract
Autonome Data Science – von rohen Datensourcen bis hin zu analystenqualitativ tiefgehenden Forschungsberichten – war lange Zeit eine herausfordernde Aufgabe, die nun durch den Aufstieg leistungsstarker großer Sprachmodelle (Large Language Models, LLMs) praktikabel wird. Kürzlich vorgestellte arbeitsablaufbasierte Data Agents haben auf spezifischen Datenaufgaben vielversprechende Ergebnisse erzielt, bleiben aber grundsätzlich aufgrund ihrer Abhängigkeit von vordefinierten Arbeitsabläufen auf dem Weg zu einer vollständig autonomen Data Science eingeschränkt. In diesem Paper stellen wir DeepAnalyze-8B vor, das erste agente-basierte LLM, das speziell für autonome Data Science entwickelt wurde und in der Lage ist, die komplette End-to-End-Pipeline – von der Datensource bis hin zu analystenqualitativen, tiefgehenden Forschungsberichten – automatisch abzuschließen. Um hochkomplexe Aufgaben im Bereich der Data Science zu meistern, schlagen wir ein curriculumbasiertes agenzentisches Trainingsparadigma vor, das die Lernentwicklung menschlicher Data Scientists nachahmt und LLMs ermöglicht, ihre Fähigkeiten schrittweise in realen Umgebungen zu erwerben und zu integrieren. Zudem präsentieren wir einen datengrundierten Trajektorien-Syntheser-Framework, der hochwertige Trainingsdaten generiert. Durch agenzentisches Training erlernt DeepAnalyze eine breite Palette an Datenaufgaben, die von der Beantwortung datenbasierter Fragen und spezialisierten Analysen bis hin zu offenen, explorativen Datensforschung reichen. Experimente zeigen, dass DeepAnalyze mit lediglich 8 Milliarden Parametern die Leistung früherer, arbeitsablaufbasierte Agenten übertrifft, die auf den fortschrittlichsten proprietären LLMs basieren. Das Modell, der zugehörige Quellcode und die Trainingsdaten von DeepAnalyze werden öffentlich zugänglich gemacht, was den Weg für die Realisierung autonomer Data Science ebnen soll.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.