HyperAI

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

최첨단 대규모 언어 모델(LLM)과 LLM 강화 시스템이 광범위한 학문 분야에서 과학적 발견을 빠르게 가속화할 수 있는 잠재력을 가지고 있다는 낙관론이 널리 퍼져 있습니다. 오늘날 교과서에 나오는 과학 문제에 대한 LLM의 지식과 추론 능력을 측정하는 벤치마크는 많지만, 문헌 검색, 프로토콜 계획, 데이터 분석 등 과학 연구에 필요한 실제 과제에서 언어 모델의 성능을 평가하는 데 사용되는 벤치마크는 거의 없습니다.

이러한 벤치마크를 확립하기 위한 첫 단계로 FutureHouse의 연구팀은 2024년에 Language Agent Biology Benchmark(LAB-Bench)를 출시했습니다. 이 데이터 세트에는 문헌 검색 및 추론 기능, 데이터 해석 기능, 데이터베이스 접근 및 탐색 기능, DNA 및 단백질 시퀀스 이해 및 제어 기능 등 다양한 실용적인 생물학 연구 기능에서 인공 지능 시스템의 성능을 평가하기 위한 2,400개 이상의 객관식 문제가 포함되어 있습니다. 관련 논문 결과는 다음과 같습니다.LAB-Bench: 생물학 연구를 위한 언어 모델의 기능 측정"

LAB 벤치 언어 모델 생물학 벤치마크 데이터 세트

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

AI로 AI 구축

Hyper Newsletters

Command Palette

LAB 벤치 언어 모델 생물학 벤치마크 데이터 세트

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

AI로 AI 구축

Hyper Newsletters