17일 전
Lila: 수학적 추론을 위한 통합 벤치마크
Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan

초록
수학적 추론 능력은 일반 목적의 지능 시스템이 식료품 쇼핑부터 기후 모델링에 이르기까지 다양한 작업을 수행하는 데 필수적이다. 이 분야에서 인공지능 시스템의 평가 및 개선을 위해, 우리는 4가지 차원에 걸쳐 23개의 다양한 과제를 포함하는 통합적인 수학적 추론 벤치마크인 LILA를 제안한다. 이 네 가지 차원은 (i) 수학적 능력(예: 산술, 미적분), (ii) 언어 형식(예: 질문-응답, 빈칸 채우기), (iii) 언어 다양성(예: 언어 없음, 간단한 언어), (iv) 외부 지식(예: 보편적 지식, 물리학)이다. 본 벤치마크는 20개의 기존 데이터셋을 확장하여, 각 과제의 지시사항과 해답을 파이썬 프로그램 형태로 수집함으로써, 정답 외에도 해석 가능한 해결 과정을 확보하였다. 또한, 분포 외 성능과 언어 왜곡에 대한 강건성(로버스트성)을 측정하기 위해 두 개의 추가 평가 데이터셋을 도입하였다. 마지막으로, LILA 데이터셋에 기반하여 훈련된 일반 목적의 수학적 추론 모델인 BHASKARA를 제시한다. 중요한 점은, 다중 작업 학습이 상당한 성능 향상을 가져온다는 점이며(단일 작업 모델 대비 평균 21.83%의 F1 점수 상승), 가장 우수한 모델조차도 60.40%의 성능에 그친다는 점에서, 일반적인 수학적 추론과 이해 능력의 향상 여지가 여전히 크다는 것을 확인할 수 있다.