HyperAIHyperAI

Command Palette

Search for a command to run...

과학자들의 첫 번째 시험: 지각, 이해, 추론을 통한 MLLM의 인지 능력 탐구

초록

과학적 발견은 점점 더 정보가 집약적인 과학 데이터와 특정 분야의 전문 지식을 기반으로 하는 복잡한 다중 모드 추론에 의존하고 있습니다. 전문 수준의 과학 벤치마크를 통해 강화된 과학용 다중 모드 대형 언어 모델(MLLMs)은 현실적인 워크플로에서 이 발견 과정을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 현재의 과학 벤치마크는 대부분 MLLMs의 지식 이해 능력을 평가하는 데 초점을 맞추고 있어, 그들의 인지 및 추론 능력에 대한 충분한 평가가 이루어지지 않고 있습니다. 이러한 간극을 메우기 위해, 우리는 과학자들의 첫 시험(Scientists' First Exam, SFE) 벤치마크를 제시합니다. SFE는 세 가지 상호 연관된 단계를 통해 MLLMs의 과학적 인지 능력을 평가하도록 설계되었습니다: 과학 신호 인식, 과학 속성 이해, 과학 비교 추론. 구체적으로, SFE는 5개의 고부가 가치 학문 분야에 걸쳐 66개의 다중 모드 작업을 포함하는 세 가지 질문 유형으로 구성된 830개의 전문가 검증 VQA 쌍을 포함하고 있습니다. 광범위한 실험 결과, 최신 GPT-3와 InternVL-3는 SFE에서 각각 34.08%와 26.52%만 달성하였으며, 이는 MLLMs이 과학 영역에서 크게 개선할 여지가 있음을 보여줍니다. 우리는 SFE에서 얻은 통찰이 AI를 활용한 과학적 발견의 추가 발전을 촉진하기를 바랍니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
과학자들의 첫 번째 시험: 지각, 이해, 추론을 통한 MLLM의 인지 능력 탐구 | 문서 | HyperAI초신경