HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques

Résumé

Les agents de recherche approfondie efficaces doivent non seulement accéder à des connaissances de domaine ouvert et spécifiques, mais aussi appliquer des règles complexes — telles que des dispositions légales, des manuels médicaux ou des règles tarifaires. Ces règles présentent souvent des frontières floues et des relations logiques implicites, ce qui rend leur application précise particulièrement difficile pour les agents. Pourtant, cette capacité essentielle est largement ignorée par les benchmarks actuels d'agents. Afin de combler ce manque, nous introduisons HSCodeComp, le premier benchmark réaliste et de niveau expert dédié à l'évaluation des agents de recherche approfondie dans l'application de règles hiérarchiques. Dans cette tâche, le processus de raisonnement profond des agents est guidé par ces règles afin de prédire le code de 10 chiffres du Système harmonisé (HSCode) d’un produit, à partir de descriptions bruitées mais réalistes. Ces codes, établis par l’Organisation mondiale des douanes, sont essentiels à l’efficacité des chaînes d’approvisionnement mondiales. Construit à partir de données réelles recueillies à grande échelle sur des plateformes e-commerce, notre benchmark HSCodeComp comprend 632 entrées produits couvrant une large diversité de catégories, les codes HS étant annotés par plusieurs experts humains. Des expérimentations approfondies menées sur plusieurs modèles d’LLM d’avant-garde, ainsi que sur des agents open-source et closed-source, révèlent un écart de performance considérable : le meilleur agent atteint seulement 46,8 % de précision sur les 10 chiffres, bien en dessous du taux humain de 95,0 %. En outre, une analyse détaillée met en évidence les difficultés inhérentes à l’application de règles hiérarchiques, et l’augmentation de l’échelle au moment du test ne permet pas d’améliorer davantage les performances.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques | Articles de recherche | HyperAI