HyperAIHyperAI

Command Palette

Search for a command to run...

LAB Bench Language Model Biology Benchmark-Datensatz

Datum

vor einem Jahr

Größe

241.96 MB

Organisation

ZukunftsHaus

Paper-URL

arxiv.org

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Es besteht allgemeiner Optimismus, dass hochmoderne große Sprachmodelle (LLMs) und LLM-erweiterte Systeme das Potenzial haben, wissenschaftliche Entdeckungen in einem breiten Spektrum von Disziplinen rasch voranzutreiben. Heutzutage gibt es viele Benchmarks, die das Wissen und die Denkfähigkeit von LLMs bei wissenschaftlichen Lehrbuchproblemen messen, aber nur wenige Benchmarks werden verwendet, um die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für die wissenschaftliche Forschung erforderlich sind, wie etwa Literaturrecherche, Protokollplanung und Datenanalyse.

Als ersten Schritt zur Etablierung eines solchen Benchmarks hat das Forschungsteam von FutureHouse im Jahr 2024 den Language Agent Biology Benchmark (LAB-Bench) eingeführt. Dieser Datensatz enthält mehr als 2.400 Multiple-Choice-Fragen zur Bewertung der Leistung von Systemen der künstlichen Intelligenz in einer Reihe praktischer biologischer Forschungsfunktionen, darunter Fähigkeiten zur Literaturrecherche und zum Schlussfolgern, Fähigkeiten zur Dateninterpretation, die Fähigkeit zum Zugriff auf und zur Navigation in Datenbanken, die Fähigkeit zum Verstehen und Steuern von DNA- und Proteinsequenzen usw. Die relevanten Papierergebnisse sindLAB-Bench: Messung der Fähigkeiten von Sprachmodellen für die biologische Forschung"

LAB-Bench.torrent
Seeding 1Herunterladen 0Abgeschlossen 165Gesamtdownloads 329
  • LAB-Bench/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • lab-bench.zip
          241.96 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LAB Bench Language Model Biology Benchmark-Datensatz | Datensätze | HyperAI