Command Palette
Search for a command to run...
Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

초록
시각-언어 모델(VLMs)이 점점 더 정교해짐에 따라, 이들의 추론 능력에 대한 검증이 더욱 강화되고 있다. 이러한 모델들은 여러 작업에서 뛰어난 성능을 보이지만, 물리학과 같은 근본적인 과학 원리에 대한 이해는 여전히 탐색이 부족한 영역이다. 이러한 능력의 발전을 반영하기 위해, 2차원 물리학에 대한 이해도를 엄격히 평가할 수 있도록 설계된 새로운 접근 가능한 프레임워크를 제안한다. 본 프레임워크는 사거리 운동, 충돌 역학, 기계학, 유체역학의 네 가지 핵심 영역에 걸쳐 400개 이상의 다양한 문제를 생성하는 실용적인 시나리오 생성기를 특징으로 한다. 최신 4개의 선도적 VLM을 포괄적으로 평가한 결과, 모델 규모와 추론 능력 사이에 강한 상관관계가 있음을 입증하였으며, 최고 성능을 보인 Qwen2.5-VL-7B 모델은 총점 0.815를 기록했다. 또한 모델들이 공식 기반 문제에서는 뛰어난 성과를 내지만, 추상적 공간 추론이 요구되는 영역에서는 상당한 어려움을 겪는다는 점을 발견하였다. 본 프레임워크를 설계함으로써, VLM의 과학적 추론 연구를 보다 폭넓게 확산시키고, 모델의 능력과 한계에 대한 심층적인 통찰을 촉진하고자 한다.