초록

대규모 언어모델(LLM)은 데이터 과학 워크플로우 자동화에 큰 잠재력을 보여주고 있으나, 기존 모델들은 다단계 추론 및 도구 사용 능력에서 여전히 어려움을 겪어 복잡한 데이터 분석 과제에서 효과성이 제한되고 있다. 이를 해결하기 위해, 실제 Jupyter 노트북 및 관련 데이터 파일로부터 고품질의 도구 기반 데이터 분석 과제와 실행 가능한 다단계 해결 방안을 추출하는 확장 가능한 파이프라인을 제안한다. 이 파이프라인을 활용해, 실제 데이터 과학 환경에서의 도구 사용 패턴을 반영한 표준화된 과제-해결 방안 쌍으로 구성된 대규모 데이터셋인 NbQA를 소개한다. 다단계 추론 능력을 further 향상시키기 위해, 데이터 분석을 탐색 문제로 재정의하고 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 적용하여 가치 모델 학습을 위한 다양한 해결 경로를 생성하는 Jupiter 프레임워크를 제안한다. 추론 과정에서는 Jupiter가 가치 모델과 노드 방문 횟수를 결합하여 최소한의 탐색 단계로 실행 가능한 다단계 계획을 효율적으로 수집한다. 실험 결과, NbQA에서 Qwen2.5-7B 및 14B-Instruct 모델은 InfiAgent-DABench에서 각각 77.82%, 86.38%의 과제를 해결하며, GPT-4o 및 고도화된 에이전트 프레임워크와 비슷하거나 이를 초월하는 성능을 보였다. 추가 평가를 통해 다양한 다단계 추론 과제에서 일반화 능력과 도구 사용 추론 능력이 향상됨을 확인할 수 있었다.

소스 PDF