3ヶ月前

概要

効果的なディープサーチエージェントは、オープンドメインおよびドメイン特化型の知識にアクセスするだけでなく、法的条項や医療マニュアル、関税規則といった複雑なルールの適用も必要である。これらのルールはしばしば曖昧な境界や隠れた論理的関係を有しており、エージェントによる正確な適用は困難である。しかし、こうした重要な能力は、現在のエージェントベンチマークにおいてほとんど無視されている。このギャップを埋めるために、我々は階層的ルール適用におけるディープサーチエージェントの評価を目的とした、初めての現実的で専門家レベルのeコマースベンチマーク「HSCodeComp」を提案する。本タスクでは、製品のノイズを含むが現実的な記述に基づき、10桁の統合分類コード（HSCode）を予測する過程において、エージェントの深層的推論がこれらのルールに従って導かれる。HSCodeは世界関税機関（WCO）によって定められ、グローバルなサプライチェーン効率に不可欠な役割を果たす。本研究で提示するHSCodeCompは、大規模eコマースプラットフォームから収集した実世界データを基に構築されており、632件の製品エントリで構成され、多様な製品カテゴリをカバーしている。各HSCodeは複数の専門家によってアノテーションされている。複数の最先端LLMおよびオープンソース・クローズドソースのエージェントを用いた広範な実験結果から、顕著な性能差が明らかになった。最良のエージェントでも10桁の正確率は46.8%にとどまり、専門家レベルの95.0%に大幅に及ばない。さらに詳細な分析により、階層的ルール適用の課題が明らかになり、推論時スケーリング（test-time scaling）も性能のさらなる向上をもたらさなかった。

ソースPDF