LAB Bench Language Model Biology Benchmark-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Es besteht allgemeiner Optimismus, dass hochmoderne große Sprachmodelle (LLMs) und LLM-erweiterte Systeme das Potenzial haben, wissenschaftliche Entdeckungen in einem breiten Spektrum von Disziplinen rasch voranzutreiben. Heutzutage gibt es viele Benchmarks, die das Wissen und die Denkfähigkeit von LLMs bei wissenschaftlichen Lehrbuchproblemen messen, aber nur wenige Benchmarks werden verwendet, um die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für die wissenschaftliche Forschung erforderlich sind, wie etwa Literaturrecherche, Protokollplanung und Datenanalyse.
Als ersten Schritt zur Etablierung eines solchen Benchmarks hat das Forschungsteam von FutureHouse im Jahr 2024 den Language Agent Biology Benchmark (LAB-Bench) eingeführt. Dieser Datensatz enthält mehr als 2.400 Multiple-Choice-Fragen zur Bewertung der Leistung von Systemen der künstlichen Intelligenz in einer Reihe praktischer biologischer Forschungsfunktionen, darunter Fähigkeiten zur Literaturrecherche und zum Schlussfolgern, Fähigkeiten zur Dateninterpretation, die Fähigkeit zum Zugriff auf und zur Navigation in Datenbanken, die Fähigkeit zum Verstehen und Steuern von DNA- und Proteinsequenzen usw. Die relevanten Papierergebnisse sindLAB-Bench: Messung der Fähigkeiten von Sprachmodellen für die biologische Forschung"