Command Palette
Search for a command to run...
DeepPlanning 장기 계획 역량 평가 데이터 세트
DeepPlanning은 지능형 에이전트의 계획 능력을 평가하기 위한 데이터셋으로, Qwen 팀에서 2026년에 공개했습니다. 관련 논문은 다음과 같습니다... DeepPlanning: 검증 가능한 제약 조건을 활용한 장기 에이전트 계획 벤치마킹본 연구의 목표는 복잡하고 장기적인 계획 수립 작업에서 지능형 에이전트의 추론 및 의사결정 능력을 평가하는 것입니다. 이 데이터 세트는 여러 날짜에 걸친 여행 계획과 여러 품목 쇼핑 계획, 이렇게 두 가지 유형의 작업을 포함합니다. 여행 계획 작업은 중국어와 영어로 제공되는 120개의 독립적인 작업 예시로 구성됩니다. 각 작업은 독립적인 환경을 기반으로 하며, 교통, 숙박, 관광 명소, 일정, 비용 등의 정보를 포함하는 구조화된 배경 데이터를 제공하며, 평균 약 7,700개의 관련 레코드를 포함합니다. 쇼핑 계획 작업은 영어로 제공되는 120개의 독립적인 작업 예시로 구성되며, 각 예시에는 제품 가격, 재고, 할인 규칙, 예산 제약 조건 등의 정보를 포함하는 제품 데이터베이스가 함께 제공되며, 평균 약 170개의 레코드를 포함합니다.