Command Palette
Search for a command to run...
Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

초록
효율적인 딥서치 에이전트는 개방형 및 도메인 특화 지식에 접근할 뿐만 아니라, 법적 조항, 의료 매뉴얼, 관세 규칙과 같은 복잡한 규칙을 적용할 수 있어야 한다. 이러한 규칙은 종종 모호한 경계와 암묵적인 논리적 관계를 지니고 있어, 에이전트가 정확히 적용하는 데 어려움이 있다. 그러나 이 핵심 역량은 현재의 에이전트 벤치마크에서 거의 간과되고 있다. 이 격차를 메우기 위해, 우리는 계층적 규칙 적용을 평가할 수 있도록 설계된, 최초의 현실성 있고 전문가 수준의 전자상거래 벤치마크인 HSCodeComp를 제안한다. 본 작업에서는 에이전트의 심층적 추론 과정이 제품의 노이즈가 섞이지만 현실적인 설명을 바탕으로 10자리 조화화된 관세코드(HSCode)를 예측하도록 규칙에 의해 안내된다. 이 코드는 세계세관기구(WCO)가 정의한 것으로, 글로벌 공급망의 효율성에 핵심적인 역할을 한다. 실세계의 대규모 전자상거래 플랫폼에서 수집한 데이터를 기반으로 구축된 HSCodeComp는 다양한 제품 카테고리에 걸쳐 632개의 제품 항목을 포함하며, 각 HSCode는 다수의 전문가에 의해 주석화되었다. 여러 최신 LLM 및 오픈소스·클로즈드소스 에이전트를 대상으로 한 광범위한 실험 결과는 뚜렷한 성능 격차를 드러내며, 최고 성능을 보인 에이전트의 10자리 정확도는 46.8%에 그치며, 전문가 수준의 95.0%에 크게 미치지 못함을 보였다. 또한, 심층적 분석을 통해 계층적 규칙 적용의 도전 과제를 확인하였고, 테스트 시점 스케일링(테스트 시 확장)도 성능 향상에 기여하지 못함을 입증하였다.