한 달 전

다중 모드 기반 모델은 스키마 다이어그램을 이해할 수 있을까? 과학 논문에서 정보 탐색 질문에 대한 실증적 연구

Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

초록

이 논문은 과학 문헌 내 스키마 도표 해석 능력을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 MISS-QA를 소개합니다. MISS-QA는 465편의 과학 논문에서 전문가가 주석을 달아 생성한 1,500개의 예제로 구성되어 있습니다. 이 벤치마크에서는 모델들이 연구 개요를 설명하는 스키마 도표를 해석하고, 논문의 전체 맥락에 기반하여 해당 정보 탐색 질문에 답하는 임무를 수행합니다. 우리는 o4-mini, Gemini-2.5-Flash, Qwen2.5-VL 등을 포함한 18개의 최신 다중모달 기초 모델의 성능을 평가하였습니다. 이들 모델과 인간 전문가 간에 MISS-QA에서 큰 성능 차이가 있음을 밝혔습니다. 또한 불가답 질문에 대한 모델 성능 분석과 상세한 오류 분석을 통해 현재 모델들의 장점과 한계점을 강조하였으며, 이를 통해 다중모달 과학 문헌 이해 능력 향상을 위한 중요한 통찰력을 제공하였습니다.