@misc{wong2025widesearchbenchmarkingagenticbroad, title={WideSearch: Benchmarking Agentic Broad Info-Seeking}, author={Ryan Wong and Jiawei Wang and Junjie Zhao and Li Chen and Yan Gao and Long Zhang and Xuan Zhou and Zuo Wang and Kai Xiang and Ge Zhang and Wenhao Huang and Yang Wang and Ke Wang}, year={2025}, eprint={2508.07999}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.07999}, }

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 10 mois

Organisation

URL du document

2508.07999

Licence

Other

Balises

Réponse Aux Questions Intelligente

Génération Augmentée Par La Recherche

LLM

Apprentissage Multi-tâches

Benchmarks

*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

WideSearch est le premier ensemble de données de référence d'évaluation d'agent conçu pour la « recherche d'informations large » publié par l'équipe Seed de ByteDance en 2025. Les résultats de l'article associé sont «WideSearch : analyse comparative de la recherche d'informations à grande échelle", qui vise à évaluer et à promouvoir systématiquement la fiabilité et l'intégrité des grands modèles linguistiques dans la collecte de faits à grande échelle, la synthèse et la production structurée vérifiable. Le benchmark se compose de 200 questions de haute qualité (100 en anglais et 100 en chinois), soigneusement sélectionnées et nettoyées manuellement par l'équipe de recherche à partir de requêtes réelles d'utilisateurs. Ces questions proviennent de plus de 15 domaines différents.

Champs de données:

instance_id : ID unique de la tâche (correspondant au nom du fichier CSV doré).
requête : une instruction en langage naturel, spécifiant généralement les noms de colonnes requis et les exigences de sortie de la table Markdown.
évaluation : un objet sérialisé (chaîne) utilisé pour l'évaluation automatique, contenant :

unique_columns : colonnes de clé primaire (pour l’alignement des lignes) ;
obligatoire : nom de la colonne qui doit apparaître ;
eval_pipeline : configuration d'évaluation au niveau de la colonne (comme le prétraitement, la métrique, le critère).

langue : Langue de la tâche, la valeur peut être en ou zh.
Diagramme de flux de construction et d'évaluation automatique des données

Citation

@misc{wong2025widesearchbenchmarkingagenticbroad,
title={WideSearch: Benchmarking Agentic Broad Info-Seeking},
author={Ryan Wong and Jiawei Wang and Junjie Zhao and Li Chen and Yan Gao and Long Zhang and Xuan Zhou and Zuo Wang and Kai Xiang and Ge Zhang and Wenhao Huang and Yang Wang and Ke Wang},
year={2025},
eprint={2508.07999},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2508.07999},
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 2 heures

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

il y a 2 heures

Ensemble De Données d'évaluation De La Mémoire À Long Terme RHELM

il y a 4 heures

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

il y a 5 jours

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 7 jours

Base De Données De Connaissances TACK Targeted Chimera

il y a 22 jours

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a 13 jours

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a 8 jours

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

il y a 2 mois

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

il y a 8 jours

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

il y a 8 jours

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a 8 jours

Ensemble De Données World Model Bench

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 10 mois

Organisation

URL du document

2508.07999

Licence

Other

Balises

Réponse Aux Questions Intelligente

Génération Augmentée Par La Recherche

LLM

Apprentissage Multi-tâches

Benchmarks

*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.