Command Palette
Search for a command to run...
Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

초록
데이터 기반 의사결정에 대한 수요가 증가함에 따라, 구조화된 데이터와 비구조화된 데이터를 통합하여 분석할 수 있는 데이터 에이전트에 대한 긴급한 필요성이 대두되고 있다. 데이터 에이전트는 사용자가 복잡한 분석 작업을 수행하는 데 기여할 수 있는 잠재력을 보이지만, 이 분야는 여전히 세 가지 핵심적 한계에 직면해 있다. 첫째, 다양한 데이터 소스에서 수행되는 분석 작업을 종합적으로 평가할 수 있는 테스트 케이스를 설계하기 어려움으로 인해 포괄적인 데이터 에이전트 기준 평가 시스템이 부재한 상태이다. 둘째, 구조화된 데이터와 비구조화된 데이터를 결합한 신뢰할 수 있는 테스트 케이스를 구축하는 것은 여전히 비용이 많이 들고 지나치게 복잡한 과정이다. 셋째, 기존의 평가 기준은 적응성과 일반화 능력이 제한적이며, 이로 인해 평가 범위가 좁아지고 있다.이러한 과제를 해결하기 위해, 우리는 다중 소스 데이터 분석 환경에서 에이전트를 평가하기 위해 특별히 설계된 최초의 데이터 에이전트 평가 기준인 FDABench를 제안한다. 본 연구의 주요 기여는 다음과 같다. (i) 다양한 데이터 소스, 도메인, 난이도 수준, 작업 유형에 걸쳐 2,007개의 다채로운 작업을 포함하는 표준화된 평가 기준을 구축하여 데이터 에이전트의 성능을 포괄적으로 평가할 수 있도록 했다. (ii) 이질적인 데이터 환경에서 신뢰성 있고 효율적인 평가 기준 구축을 보장하기 위해 에이전트-전문가 협업 프레임워크를 설계하였다. (iii) 다양한 대상 시스템 및 프레임워크 간에서도 강력한 일반화 능력을 갖추도록 FDABench를 설계하였다. FDABench를 활용하여 다양한 데이터 에이전트 시스템을 평가한 결과, 각 시스템은 응답 품질, 정확도, 지연 시간, 토큰 비용 측면에서 서로 다른 장점과 한계를 보였다.