Command Palette
Search for a command to run...
DAComp: 데이터 지능 생애 주기 전반에 걸친 데이터 에이전트 평가
DAComp: 데이터 지능 생애 주기 전반에 걸친 데이터 에이전트 평가
초록
실제 기업 환경의 데이터 지능 워크플로우는 원시 데이터를 분석용 테이블로 변환하는 데이터 엔지니어링(Data Engineering, DE)과 해당 테이블을 의사결정 중심의 통찰으로 전환하는 데이터 분석(Data Analysis, DA)을 포함한다. 본 연구에서는 이러한 복잡한 워크플로우를 반영한 210개의 작업으로 구성된 벤치마크인 DAComp를 제안한다. 데이터 엔지니어링 작업은 산업용 스키마에 대한 레포지토리 수준의 엔지니어링을 요구하며, 스키마 기반으로 다단계 SQL 파이프라인을 처음부터 설계하고 구축하며, 지속적인 요구사항 변화에 따라 기존 시스템을 진화시켜야 한다. 데이터 분석 작업은 개방형 비즈니스 문제를 제시하며, 전략적 계획 수립, 반복적 코드 작성을 통한 탐색적 분석, 중간 결과의 해석, 그리고 실행 가능한 권고안의 통합을 요구한다. 엔지니어링 작업은 실행 기반의 다중 지표 평가를 통해 점수화되며, 개방형 작업은 계층적이고 철저히 설계된 평가 기준을 기반으로 한 신뢰성 높고 실험적으로 검증된 LLM-판정자(판정 모델)를 통해 평가된다. 실험 결과, 최신 기술 수준의 에이전트조차 DAComp에서 성능 저하를 보였으며, 특히 DE 작업의 성공률은 20% 미만에 그쳐, 단순한 코드 생성을 넘어서 종합적인 파이프라인 오케스트레이션의 심각한 한계를 드러냈다. DA 작업의 평균 점수도 40% 미만으로, 개방형 추론 능력의 근본적인 부족을 시사하며, 엔지니어링과 분석이 서로 다른 능력임을 입증한다. 이러한 한계를 명확히 진단함으로써 DAComp는 기업 환경에서 진정으로 능력 있는 자율적 데이터 에이전트 개발을 촉진할 수 있는 엄격하고 현실적인 평가 기반을 제공한다. 본 연구의 데이터 및 코드는 https://da-comp.github.io 에서 공개된다.