HyperAI
vor einem Tag

SciArena: Eine Offene Evaluierungsplattform für Grundmodelle in Wissenschaftlichen Literaturaufgaben

Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
SciArena: Eine Offene Evaluierungsplattform für Grundmodelle in Wissenschaftlichen Literaturaufgaben
Abstract

Wir präsentieren SciArena, eine offene und kollaborative Plattform zur Bewertung von Fundierungsmodellen bei Aufgaben der wissenschaftlichen Literatur. Im Gegensatz zu traditionellen Benchmarks für das Verstehen und die Synthese wissenschaftlicher Literatur engagiert SciArena die Forschergemeinschaft direkt, indem es den Ansatz der Chatbot Arena zur Bewertung durch Vergleiche und Community-Voting (Gemeinschaftsabstimmungen) nutzt. Durch die Nutzung kollektiver Intelligenz bietet SciArena eine von der Gemeinschaft getriebene Bewertung der Modelleffizienz bei offenen wissenschaftlichen Aufgaben, die fundierte, ausführliche Antworten erfordern. Die Plattform unterstützt derzeit 23 Open-Source- und proprietäre Fundierungsmodelle und hat über 13.000 Abstimmungen von vertrauenswürdigen Forschern aus verschiedenen wissenschaftlichen Bereichen gesammelt. Wir analysieren die bisher gesammelten Daten und bestätigen, dass die eingereichten Fragen vielfältig sind, den tatsächlichen Bedürfnissen der wissenschaftlichen Literatur entsprechen und dass die teilnehmenden Forscher in ihren Bewertungen starke Selbstkonsistenz und Übereinstimmung zwischen den Annotatoren zeigen. Wir diskutieren die Ergebnisse und Erkenntnisse auf Basis des Modell-Ranglisten-Leaders. Um weitere Forschung im Bereich der modellbasierten automatisierten Evaluierungssysteme für Literaturaufgaben zu fördern, veröffentlichen wir SciArena-Eval, ein Meta-Benchmark basierend auf unseren gesammelten Präferenzdaten. Der Benchmark misst die Genauigkeit der Modelle beim Beurteilen der Antwortqualität, indem ihre paarweisen Bewertungen mit menschlichen Abstimmungen verglichen werden. Unsere Experimente verdeutlichen die Herausforderungen des Benchmarks und betonen die Notwendigkeit zuverlässigerer automatisierter Evaluierungsverfahren.