2달 전

MapEval: 기반 모델에서 지리 공간 추론의 맵 기반 평가

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
MapEval: 기반 모델에서 지리 공간 추론의 맵 기반 평가
초록

최근 기초 모델의 발전으로 인해 AI 시스템의 자율 도구 사용 및 추론 능력이 향상되었습니다. 그러나 일상생활을 최적화된 내비게이션, 자원 발견 용이성, 그리고 물류 효율성을 통해 개선하는 데 중요한 위치 또는 지도 기반 추론 능력은 체계적으로 연구되지 않았습니다. 이 간극을 메우기 위해, 우리는 다양한 복잡한 지도 기반 사용자 쿼리를 평가하기 위한 벤치마크인 MapEval(지도평가)를 소개합니다. MapEval은 텍스트, API 기반, 그리고 시각적인 세 가지 작업 유형을 포함하며, 이러한 작업들은 지도 도구를 통해 세계 정보를 수집하고, 명명된 실체, 이동 거리, 사용자 리뷰나 평점, 이미지 등의 이질적인 지리 공간 맥락을 처리하며, 구성적 추론을 요구합니다. 이러한 모든 과제는 최신 기초 모델들이 어려워 하는 부분입니다.MapEval은 180개 도시와 54개 국가에 걸친 700개의 고유한 다중 선택 질문으로 구성되어 있으며, 공간 관계, 지도 인포그래픽, 여행 계획 수립, 그리고 내비게이션 문제 해결 능력을 평가합니다. MapEval을 활용하여 우리는 28개의 주요 기초 모델에 대한 포괄적인 평가를 수행했습니다. 단일 모델이 모든 작업에서 우수한 성능을 보이지는 않았지만, Claude-3.5-Sonnet(클로드-3.5-손넷), GPT-4o(지피티-4오), 그리고 Gemini-1.5-Pro(제미니-1.5-프로)는 전반적으로 경쟁력 있는 성능을 보였습니다. 그러나 특히 MapEval에서 큰 성능 차이가 나타났으며, Claude-3.5-Sonnet 에이전트는 GPT-4o와 Gemini-1.5-Pro보다 각각 16%와 21% 더 우수한 성능을 보였습니다. 오픈 소스 LLM들과 비교할 때 이러한 차이는 더욱 확대되었습니다.우리의 상세 분석은 현재 모델들의 강점과 약점을 밝혀주지만, 모든 모델은 여전히 복잡한 지도 이미지와 엄격한 지리 공간 추론에서 평균 20% 이상 human performance(인간 성능)에 미치지 못하고 있습니다. 이 간극은 MapEval이 일반 목적 기초 모델들의 지리 공간 이해력을 강화하는 데 있어 중요한 역할을 함을 강조합니다.

MapEval: 기반 모델에서 지리 공간 추론의 맵 기반 평가 | 최신 연구 논문 | HyperAI초신경