HyperAI

FDAbench-Full은 난양기술대학교, 싱가포르국립대학교, Huawei Technologies Co., Ltd.가 2025년에 발표한 데이터 에이전트를 위한 최초의 이기종 데이터 분석 작업 벤치마크 세트입니다. 관련 논문 결과는 다음과 같습니다.FDABench: 이기종 데이터에 대한 분석 쿼리에 대한 데이터 에이전트를 위한 벤치마크"는 데이터베이스 쿼리 생성, SQL 이해, 재무 데이터 분석에서 모델의 역량을 평가하는 것을 목표로 합니다.

이 데이터세트에는 다양한 데이터 도메인, 난이도 및 작업 범주를 포괄하는 2,007개의 고품질 분석 작업이 포함되어 있습니다. 각 예제에는 task_id(작업 고유 식별자), instance_id(인스턴스 식별자), db(데이터베이스 이름/식별자), level(난이도: 쉬움/보통/어려움), database_type(데이터베이스 시스템 유형), question_type(질문 범주), tools_available(사용 가능한 도구 목록), query(주요 질문/질의 텍스트)를 포함한 완전한 메타데이터 필드가 포함되어 있습니다.

데이터 세트 구조

데이터 세트에는 세 가지 작업 유형이 포함되어 있습니다.

단일 선택형 문제: 총 579개의 신중하게 설계된 문제로 구성되어 있으며, 각 문제에는 정답이 하나만 있습니다. 이 문제는 주로 모델의 데이터베이스 개념 및 SQL 쿼리 이해도를 평가하는 데 사용됩니다.
객관식 문제(복수): 총 760개의 복합 문제로 구성되어 있으며, 여러 개의 정답이 가능합니다. 정확한 수치 계산 결과와 추론에 기반한 결론이 포함되어 있으며, 모델의 데이터 분석 및 추론 능력에 대한 종합적인 성능을 평가하는 데 사용됩니다.
보고서 생성(보고서): 총 668개의 질문으로 구성된 이 시험에서는 상세한 분석 보고서를 생성하고, 다중 데이터 소스 환경에서 데이터 에이전트가 포괄적인 분석을 수행하는 능력을 테스트하며, 비교 평가 벤치마크로 표준 보고서를 제공합니다.

FDAbench-Full 이기종 데이터 분석 벤치마크 데이터 세트

데이터 세트 구조

AI로 AI 구축

Hyper Newsletters

Command Palette

FDAbench-Full 이기종 데이터 분석 벤치마크 데이터 세트

데이터 세트 구조

AI로 AI 구축

Hyper Newsletters