17일 전

GeoQA: 다중모달 수치 추론을 위한 기하학적 질문 응답 벤치마크

Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric P. Xing, Liang Lin
GeoQA: 다중모달 수치 추론을 위한 기하학적 질문 응답 벤치마크
초록

자동 수학 문제 해결은 최근 오랫동안 지속된 AI 평가 기준으로서 점차 더 많은 주목을 받고 있다. 본 논문에서는 텍스트 설명, 시각적 다이어그램, 정리 지식에 대한 포괄적인 이해가 요구되는 기하학 문제 해결에 초점을 맞춘다. 그러나 기존의 방법들은 수작업 규칙에 크게 의존했으며, 소규모 데이터셋에서만 평가된 바 있다. 따라서 본 연구에서는 4,998개의 기하학 문제와 각 문제에 해당하는 프로그램(annotation)을 포함하는 기하학 질문 응답 데이터셋 GeoQA를 제안한다. 이 프로그램(annotation)은 주어진 문제의 해결 과정을 명시적으로 표현한다. 기존에 공개된 데이터셋 GeoS에 비해 GeoQA는 25배 더 크며, 프로그램(annotation)이 명시적이고 설명 가능한 수치 추론을 위한 실질적인 테스트베드를 제공한다. 또한, 다중 모달 정보를 종합적으로 해석하고 해석 가능한 프로그램을 생성함으로써 기하학 문제를 해결하는 신경 기하학 솔버(Neural Geometric Solver, NGS)를 제안한다. 더불어 NGS에 다수의 자기지도 보조 과제(self-supervised auxiliary tasks)를 도입하여 다중 모달 의미 표현을 강화한다. GeoQA에서 수행된 광범위한 실험을 통해 제안된 NGS와 보조 과제의 효과성이 검증되었다. 그러나 결과는 여전히 인간의 성능에 크게 미치지 못하며, 향후 연구를 위한 여지가 크다. 본 연구의 벤치마크 및 코드는 https://github.com/chen-judge/GeoQA 에서 공개된다.

GeoQA: 다중모달 수치 추론을 위한 기하학적 질문 응답 벤치마크 | 최신 연구 논문 | HyperAI초신경