초록

과학적 발견은 점점 더 정보가 집약적인 과학 데이터와 특정 분야의 전문 지식을 기반으로 하는 복잡한 다중 모드 추론에 의존하고 있습니다. 전문 수준의 과학 벤치마크를 통해 강화된 과학용 다중 모드 대형 언어 모델(MLLMs)은 현실적인 워크플로에서 이 발견 과정을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 현재의 과학 벤치마크는 대부분 MLLMs의 지식 이해 능력을 평가하는 데 초점을 맞추고 있어, 그들의 인지 및 추론 능력에 대한 충분한 평가가 이루어지지 않고 있습니다. 이러한 간극을 메우기 위해, 우리는 과학자들의 첫 시험(Scientists' First Exam, SFE) 벤치마크를 제시합니다. SFE는 세 가지 상호 연관된 단계를 통해 MLLMs의 과학적 인지 능력을 평가하도록 설계되었습니다: 과학 신호 인식, 과학 속성 이해, 과학 비교 추론. 구체적으로, SFE는 5개의 고부가 가치 학문 분야에 걸쳐 66개의 다중 모드 작업을 포함하는 세 가지 질문 유형으로 구성된 830개의 전문가 검증 VQA 쌍을 포함하고 있습니다. 광범위한 실험 결과, 최신 GPT-3와 InternVL-3는 SFE에서 각각 34.08%와 26.52%만 달성하였으며, 이는 MLLMs이 과학 영역에서 크게 개선할 여지가 있음을 보여줍니다. 우리는 SFE에서 얻은 통찰이 AI를 활용한 과학적 발견의 추가 발전을 촉진하기를 바랍니다.

소스 PDF