HyperAIHyperAI

Command Palette

Search for a command to run...

LAB Bench Language Model Biology Benchmark-Datensatz

Datum

vor 2 Jahren

Größe

241.96 MB

Organisation

ZukunftsHaus

Paper-URL

arxiv.org

Es besteht allgemeiner Optimismus, dass hochmoderne große Sprachmodelle (LLMs) und LLM-erweiterte Systeme das Potenzial haben, wissenschaftliche Entdeckungen in einem breiten Spektrum von Disziplinen rasch voranzutreiben. Heutzutage gibt es viele Benchmarks, die das Wissen und die Denkfähigkeit von LLMs bei wissenschaftlichen Lehrbuchproblemen messen, aber nur wenige Benchmarks werden verwendet, um die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für die wissenschaftliche Forschung erforderlich sind, wie etwa Literaturrecherche, Protokollplanung und Datenanalyse.

Als ersten Schritt zur Etablierung eines solchen Benchmarks hat das Forschungsteam von FutureHouse im Jahr 2024 den Language Agent Biology Benchmark (LAB-Bench) eingeführt. Dieser Datensatz enthält mehr als 2.400 Multiple-Choice-Fragen zur Bewertung der Leistung von Systemen der künstlichen Intelligenz in einer Reihe praktischer biologischer Forschungsfunktionen, darunter Fähigkeiten zur Literaturrecherche und zum Schlussfolgern, Fähigkeiten zur Dateninterpretation, die Fähigkeit zum Zugriff auf und zur Navigation in Datenbanken, die Fähigkeit zum Verstehen und Steuern von DNA- und Proteinsequenzen usw. Die relevanten Papierergebnisse sindLAB-Bench: Messung der Fähigkeiten von Sprachmodellen für die biologische Forschung"

LAB-Bench.torrent
Seeding 1Wird heruntergeladen 0Abgeschlossen 182Gesamtdownloads 384
  • LAB-Bench/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • lab-bench.zip
          241.96 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp