HyperAI
il y a un jour

SciArena : Une plateforme d'évaluation ouverte pour les modèles de base dans les tâches de littérature scientifique

Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
SciArena : Une plateforme d'évaluation ouverte pour les modèles de base dans les tâches de littérature scientifique
Résumé

Nous présentons SciArena, une plateforme ouverte et collaborative pour l'évaluation de modèles fondamentaux sur des tâches liées à la littérature scientifique. Contrairement aux benchmarks traditionnels pour la compréhension et la synthèse de la littérature scientifique, SciArena implique directement la communauté de recherche, en suivant l'approche d'évaluation de Chatbot Arena basée sur le vote communautaire sur les comparaisons de modèles. En utilisant l'intelligence collective, SciArena offre une évaluation pilotée par la communauté des performances des modèles sur des tâches scientifiques ouvertes qui nécessitent des réponses longues et fondées sur la littérature. La plateforme prend actuellement en charge 23 modèles fondamentaux open source et propriétaires et a recueilli plus de 13 000 votes de chercheurs de confiance issus de divers domaines scientifiques. Nous analysons les données collectées jusqu'à présent et confirmons que les questions soumises sont variées, alignées avec les besoins réels de la littérature, et que les chercheurs participants montrent une forte cohérence interne et un accord inter-annotateurs dans leurs évaluations. Nous discutons des résultats et des insights basés sur le classement des modèles. Pour promouvoir davantage la recherche visant à construire des systèmes d'évaluation automatisés basés sur des modèles pour les tâches liées à la littérature, nous mettons à disposition SciArena-Eval, un benchmark méta-évaluation basé sur nos données de préférence collectées. Ce benchmark mesure la précision des modèles dans l'évaluation de la qualité des réponses en comparant leurs évaluations par paires avec les votes humains. Nos expériences mettent en lumière les défis posés par ce benchmark et soulignent le besoin d'une évaluation automatisée plus fiable.