HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

T2R-bench : Un benchmark pour la génération de rapports au niveau des articles à partir de tableaux industriels du monde réel

T2R-bench : Un benchmark pour la génération de rapports au niveau des articles à partir de tableaux industriels du monde réel

Résumé

De nombreuses recherches ont été menées afin d’explorer les capacités des grands modèles linguistiques (LLM) en raisonnement sur les tableaux. Toutefois, la tâche fondamentale de transformation des informations issues des tableaux en rapports reste un défi majeur pour les applications industrielles. Cette tâche est confrontée à deux problèmes critiques : 1) la complexité et la diversité des tableaux entraînent des résultats de raisonnement sous-optimaux ; et 2) les benchmarks existants sur les tableaux ne disposent pas d’une capacité suffisante pour évaluer adéquatement l’utilisation pratique de cette tâche. Pour combler ce manque, nous proposons la tâche de génération de rapports à partir de tableaux (table-to-report, T2R) et construisons un benchmark bilingue nommé T2R-bench, dans lequel le flux d’information clé va des tableaux vers les rapports. Ce benchmark comprend 457 tableaux industriels, tous extraits de scénarios réels, couvrant 19 domaines industriels ainsi que 4 types de tableaux industriels. En outre, nous proposons un critère d’évaluation permettant de mesurer de manière équitable la qualité de la génération de rapports. Les expérimentations menées sur 25 grands modèles linguistiques largement utilisés révèlent que même les modèles les plus avancés, tels que Deepseek-R1, atteignent un score global de seulement 62,71, ce qui indique que les LLM restent en besoin d’amélioration sur le benchmark T2R-bench. Le code source et les données seront rendus disponibles après acceptation.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
T2R-bench : Un benchmark pour la génération de rapports au niveau des articles à partir de tableaux industriels du monde réel | Articles de recherche | HyperAI