il y a 4 mois

Résumé

Les agents de recherche approfondie efficaces doivent non seulement accéder à des connaissances de domaine ouvert et spécifiques, mais aussi appliquer des règles complexes — telles que des dispositions légales, des manuels médicaux ou des règles tarifaires. Ces règles présentent souvent des frontières floues et des relations logiques implicites, ce qui rend leur application précise particulièrement difficile pour les agents. Pourtant, cette capacité essentielle est largement ignorée par les benchmarks actuels d'agents. Afin de combler ce manque, nous introduisons HSCodeComp, le premier benchmark réaliste et de niveau expert dédié à l'évaluation des agents de recherche approfondie dans l'application de règles hiérarchiques. Dans cette tâche, le processus de raisonnement profond des agents est guidé par ces règles afin de prédire le code de 10 chiffres du Système harmonisé (HSCode) d’un produit, à partir de descriptions bruitées mais réalistes. Ces codes, établis par l’Organisation mondiale des douanes, sont essentiels à l’efficacité des chaînes d’approvisionnement mondiales. Construit à partir de données réelles recueillies à grande échelle sur des plateformes e-commerce, notre benchmark HSCodeComp comprend 632 entrées produits couvrant une large diversité de catégories, les codes HS étant annotés par plusieurs experts humains. Des expérimentations approfondies menées sur plusieurs modèles d’LLM d’avant-garde, ainsi que sur des agents open-source et closed-source, révèlent un écart de performance considérable : le meilleur agent atteint seulement 46,8 % de précision sur les 10 chiffres, bien en dessous du taux humain de 95,0 %. En outre, une analyse détaillée met en évidence les difficultés inhérentes à l’application de règles hiérarchiques, et l’augmentation de l’échelle au moment du test ne permet pas d’améliorer davantage les performances.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 4 mois

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 4 mois

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HSCodeComp : Un benchmark réaliste et de niveau expert pour les agents de recherche profonde dans l'application de règles hiérarchiques

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters