
초록
수학적 추론은 인간의 지능에서 핵심적인 능력으로, 이 영역은 몇 가지 독특한 도전 과제를 제시합니다. 우리는 수학 문제를 이해하고 해결하는 데 주로 경험과 증거에 의존하지 않고, 법칙, 공리, 그리고 기호 조작 규칙을 추론하고 배우며 활용함으로써 이를 이루어냅니다. 본 논문에서는 신경망 구조와 유사한 시스템의 평가(및 궁극적으로 설계)를 위한 새로운 도전 과제를 제시하며, 순차적인 질문과 답변이 포함된 자유형식의 텍스트 입출력 형식으로 구성된 수학 문제 세트를 개발하였습니다. 산술, 대수학, 확률론, 미적분학 등 수학 영역의 구조화된 특성은 다양한 구조의 역량과 실패 모드를 명확히 드러내는 훈련 및 테스트 분할을 설계할 수 있게 하며, 지식과 학습된 프로세스를 구성하고 연관시키는 능력을 평가할 수 있습니다. 데이터 생성 과정과 그 잠재적인 미래 확장을 설명한 후, 가장 강력한 시퀀스-투-시퀀스 구조 두 종류에 속하는 모델들을 대상으로 포괄적인 분석을 수행하였으며, 이들 모델이 수학 문제를 해결하고 지식을 일반화하는 능력에 있어 눈에 띄는 차이점을 발견하였습니다.