17일 전

Lila: 수학적 추론을 위한 통합 벤치마크

Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan
Lila: 수학적 추론을 위한 통합 벤치마크
초록

수학적 추론 능력은 일반 목적의 지능 시스템이 식료품 쇼핑부터 기후 모델링에 이르기까지 다양한 작업을 수행하는 데 필수적이다. 이 분야에서 인공지능 시스템의 평가 및 개선을 위해, 우리는 4가지 차원에 걸쳐 23개의 다양한 과제를 포함하는 통합적인 수학적 추론 벤치마크인 LILA를 제안한다. 이 네 가지 차원은 (i) 수학적 능력(예: 산술, 미적분), (ii) 언어 형식(예: 질문-응답, 빈칸 채우기), (iii) 언어 다양성(예: 언어 없음, 간단한 언어), (iv) 외부 지식(예: 보편적 지식, 물리학)이다. 본 벤치마크는 20개의 기존 데이터셋을 확장하여, 각 과제의 지시사항과 해답을 파이썬 프로그램 형태로 수집함으로써, 정답 외에도 해석 가능한 해결 과정을 확보하였다. 또한, 분포 외 성능과 언어 왜곡에 대한 강건성(로버스트성)을 측정하기 위해 두 개의 추가 평가 데이터셋을 도입하였다. 마지막으로, LILA 데이터셋에 기반하여 훈련된 일반 목적의 수학적 추론 모델인 BHASKARA를 제시한다. 중요한 점은, 다중 작업 학습이 상당한 성능 향상을 가져온다는 점이며(단일 작업 모델 대비 평균 21.83%의 F1 점수 상승), 가장 우수한 모델조차도 60.40%의 성능에 그친다는 점에서, 일반적인 수학적 추론과 이해 능력의 향상 여지가 여전히 크다는 것을 확인할 수 있다.