Command Palette

Search for a command to run...

10日前

HSCodeComp:階層的ルール適用におけるディープサーチエージェント向けの現実的で専門的水準のベンチマーク

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

HSCodeComp:階層的ルール適用におけるディープサーチエージェント向けの現実的で専門的水準のベンチマーク

要約

効果的なディープサーチエージェントは、オープンドメインおよびドメイン特化型の知識にアクセスするだけでなく、法的条項や医療マニュアル、関税規則といった複雑なルールの適用も必要である。これらのルールはしばしば曖昧な境界や隠れた論理的関係を有しており、エージェントによる正確な適用は困難である。しかし、こうした重要な能力は、現在のエージェントベンチマークにおいてほとんど無視されている。このギャップを埋めるために、我々は階層的ルール適用におけるディープサーチエージェントの評価を目的とした、初めての現実的で専門家レベルのeコマースベンチマーク「HSCodeComp」を提案する。本タスクでは、製品のノイズを含むが現実的な記述に基づき、10桁の統合分類コード(HSCode)を予測する過程において、エージェントの深層的推論がこれらのルールに従って導かれる。HSCodeは世界関税機関(WCO)によって定められ、グローバルなサプライチェーン効率に不可欠な役割を果たす。本研究で提示するHSCodeCompは、大規模eコマースプラットフォームから収集した実世界データを基に構築されており、632件の製品エントリで構成され、多様な製品カテゴリをカバーしている。各HSCodeは複数の専門家によってアノテーションされている。複数の最先端LLMおよびオープンソース・クローズドソースのエージェントを用いた広範な実験結果から、顕著な性能差が明らかになった。最良のエージェントでも10桁の正確率は46.8%にとどまり、専門家レベルの95.0%に大幅に及ばない。さらに詳細な分析により、階層的ルール適用の課題が明らかになり、推論時スケーリング(test-time scaling)も性能のさらなる向上をもたらさなかった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HSCodeComp:階層的ルール適用におけるディープサーチエージェント向けの現実的で専門的水準のベンチマーク | 論文 | HyperAI超神経