HyperAIHyperAI

Command Palette

Search for a command to run...

SciArena: Eine Offene Evaluierungsplattform für Grundmodelle in Wissenschaftlichen Literaturaufgaben

Zusammenfassung

Wir präsentieren SciArena, eine offene und kollaborative Plattform zur Bewertung von Fundierungsmodellen bei Aufgaben der wissenschaftlichen Literatur. Im Gegensatz zu traditionellen Benchmarks für das Verstehen und die Synthese wissenschaftlicher Literatur engagiert SciArena die Forschergemeinschaft direkt, indem es den Ansatz der Chatbot Arena zur Bewertung durch Vergleiche und Community-Voting (Gemeinschaftsabstimmungen) nutzt. Durch die Nutzung kollektiver Intelligenz bietet SciArena eine von der Gemeinschaft getriebene Bewertung der Modelleffizienz bei offenen wissenschaftlichen Aufgaben, die fundierte, ausführliche Antworten erfordern. Die Plattform unterstützt derzeit 23 Open-Source- und proprietäre Fundierungsmodelle und hat über 13.000 Abstimmungen von vertrauenswürdigen Forschern aus verschiedenen wissenschaftlichen Bereichen gesammelt. Wir analysieren die bisher gesammelten Daten und bestätigen, dass die eingereichten Fragen vielfältig sind, den tatsächlichen Bedürfnissen der wissenschaftlichen Literatur entsprechen und dass die teilnehmenden Forscher in ihren Bewertungen starke Selbstkonsistenz und Übereinstimmung zwischen den Annotatoren zeigen. Wir diskutieren die Ergebnisse und Erkenntnisse auf Basis des Modell-Ranglisten-Leaders. Um weitere Forschung im Bereich der modellbasierten automatisierten Evaluierungssysteme für Literaturaufgaben zu fördern, veröffentlichen wir SciArena-Eval, ein Meta-Benchmark basierend auf unseren gesammelten Präferenzdaten. Der Benchmark misst die Genauigkeit der Modelle beim Beurteilen der Antwortqualität, indem ihre paarweisen Bewertungen mit menschlichen Abstimmungen verglichen werden. Unsere Experimente verdeutlichen die Herausforderungen des Benchmarks und betonen die Notwendigkeit zuverlässigerer automatisierter Evaluierungsverfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp