HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Tagen

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

Abstract

Effektive Deep-Search-Agenten müssen nicht nur auf offene Domänen- und spezifische Fachwissensquellen zugreifen, sondern auch komplexe Regeln – wie beispielsweise Rechtsvorschriften, medizinische Leitlinien oder Zolltarifbestimmungen – anwenden können. Diese Regeln zeichnen sich oft durch unscharfe Grenzen und implizite logische Zusammenhänge aus, was eine präzise Anwendung für Agenten erheblich erschwert. Diese entscheidende Fähigkeit wird jedoch von aktuellen Agenten-Benchmarks weitgehend übersehen. Um diese Lücke zu schließen, stellen wir HSCodeComp vor – den ersten realistischen, expertenorientierten E-Commerce-Benchmark, der darauf abzielt, Deep-Search-Agenten im Bereich der hierarchischen Regelanwendung zu evaluieren. Bei dieser Aufgabe wird der tiefgehende Schlussfolgerungsprozess der Agenten durch diese Regeln geleitet, um den 10-stelligen Harmonisierten Systemcode (HSCode) von Produkten vorherzusagen, basierend auf rauschbehafteten, aber realistischen Produktbeschreibungen. Diese Codes, die von der Weltzollorganisation (World Customs Organization) festgelegt wurden, sind entscheidend für die Effizienz globaler Lieferketten. HSCodeComp basiert auf echten Daten aus großskaligen E-Commerce-Plattformen und umfasst 632 Produkt-Einträge aus vielfältigen Produktkategorien, wobei die HS-Codes von mehreren menschlichen Experten annotiert wurden. Umfangreiche Experimente an mehreren führenden LLMs sowie offenen und geschlossenen Agenten zeigen eine erhebliche Leistungslücke: Der beste Agent erreicht lediglich eine Genauigkeit von 46,8 % bei der Vorhersage des 10-stelligen Codes – weit unterhalb der Leistung menschlicher Experten mit 95,0 %. Zudem zeigt eine detaillierte Analyse die Herausforderungen der hierarchischen Regelanwendung, und eine Skalierung zur Testzeit führt nicht zu weiterer Leistungssteigerung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung | Forschungsarbeiten | HyperAI