Command Palette
Search for a command to run...
Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

摘要
有效的深度搜索智能体不仅需要能够访问开放域和领域特定的知识,还需能够应用复杂的规则——如法律条文、医学手册和关税条例。这些规则往往具有模糊的边界和隐含的逻辑关系,导致智能体在精确应用时面临巨大挑战。然而,当前的智能体评估基准在很大程度上忽视了这一关键能力。为弥补这一空白,我们提出了HSCodeComp,这是首个面向真实场景、具备专家级水平的电子商务评估基准,旨在评估智能体在层级化规则应用中的深度推理能力。在该任务中,智能体需基于这些规则,对包含噪声但真实的产品描述,推断出10位数的《商品名称及编码协调制度》(HSCode)。HSCode由世界海关组织(World Customs Organization)制定,是保障全球供应链高效运行的关键工具。HSCodeComp基于从大规模电子商务平台收集的真实数据构建,包含632个产品条目,覆盖多种产品类别,其HSCode由多位人工专家进行标注。在多个最先进的大语言模型(LLM)及开源与闭源智能体上的大量实验结果表明,当前智能体性能存在巨大差距:表现最佳的智能体仅达到46.8%的10位HSCode准确率,远低于人类专家95.0%的水平。此外,深入分析进一步揭示了层级化规则应用所面临的挑战,且在测试阶段的规模扩展(test-time scaling)也无法进一步提升性能。